Sete dias atrás eu liguei o cronômetro
Há sete dias eu liguei o cronômetro de uma janela de 90 dias. Pré-registrei a metodologia no OSF, travei a versão 2 do pipeline, e deixei a coleta rodar no automático em cinco LLMs (ChatGPT, Claude, Gemini, Groq e Perplexity), 69 entidades brasileiras (61 reais e 8 fictícias plantadas como controle), quatro verticais (Fintech, Varejo, Saúde e Tecnologia). Hoje, dia 7 de 90, já temos 8.571 queries empíricas e 1.785 citações no banco de dados. E os primeiros sinais já desmontam uma premissa que circula em quase todo deck de marketing brasileiro.
O dado mais importante deste post é uma frase. Não existe uma métrica única chamada "ser citado por IA". Existem cinco mercados completamente diferentes acontecendo ao mesmo tempo, e a maior parte das marcas está otimizando para o errado. Os números só explicitam o que a arquitetura desses sistemas já indicava — e a magnitude é maior do que eu esperava.
Cinco mercados, 75 vezes de diferença
A taxa de citação global, sobre 8.571 queries, é de 20,8% (intervalo de confiança de 95%: 20,0%–21,7%). Esse número é, sozinho, inútil. Quando se decompõe por LLM, a história muda:
- Perplexity: 82,5% de citação
- Claude: 26,0%
- ChatGPT: 17,2%
- Groq: 8,2%
- Gemini: 1,1%
Setenta e cinco vezes de diferença entre o melhor e o pior. Não é ruído nem amostra pequena: são 8.571 queries pareadas, com a mesma cohort, na mesma janela, com o mesmo prompt-set. O modelo com RAG ativo (Perplexity) e o modelo paramétrico puro (Gemini) são, do ponto de vista de visibilidade de marca, dois universos. Quando uma marca declara "fui citada pela IA", ela precisa terminar a frase: por qual.
A implicação para qualquer gestor de marketing brasileiro é direta. Reportar "presença em IA" como uma métrica única é, na prática, esconder uma diferença de duas ordens de grandeza atrás de uma média ponderada. Cada uma das cinco engines opera com um pipeline diferente — recuperação ao vivo (Perplexity), augmentação seletiva (Claude, ChatGPT), inferência paramétrica pura (Gemini, Groq) — e a barra de entrada para visibilidade em cada uma é radicalmente distinta. Otimizar conteúdo "para a IA" no singular é otimizar para um destinatário que não existe.
Três achados que estão me tirando o sono
Além do gap entre engines, três sinais preliminares já mostram que a leitura ingênua do mercado está errada em pelo menos três frentes:
Vertical importa duas vezes mais do que eu esperava. Fintech tem 28,6% de taxa de citação. Saúde tem 14,0%. Mesma metodologia, mesma janela, mesma cohort. O recall setorial dos LLMs é profundamente desigual, e o setor de saúde está órfão. Para uma operação de varejo ou serviços financeiros, a barra de entrada é menor; para saúde, o trabalho é estrutural e leva mais tempo.
Inglês cita mais do que português. Queries em inglês geram 23,0% de citações. As mesmas queries em português, sobre as mesmas marcas, geram 18,7%. Eu esperava o oposto. O sinal prático é direto: hoje, perguntar "best Brazilian fintechs" devolve mais marcas brasileiras do que perguntar "melhores fintechs brasileiras". Está na lista de prioridade entender o porquê — provavelmente envolve o volume de corpus de treinamento em inglês citando marcas brasileiras, mais do que a presença em conteúdo nativo em português.
Quase ninguém fala mal. De 3.841 contextos com sentimento classificado, 0,2% são negativos. Os LLMs raramente criticam quem citam. Isso significa que qualquer dashboard do tipo "share of voice em IA" mede presença, não reputação. Reputação exige outro experimento, não o mesmo. Confundir as duas coisas é um erro caro.
Há ainda um quarto dado que merece registro. 97% das menções identificadas usam o nome próprio da marca (167 em 172 contextos auditados). Os modelos preferem citar a empresa pelo nome a inserir um link. Isso reforça que a unidade competitiva no GEO é a entidade nomeada — não a URL.
Por que confio nesses números aos sete dias
Resultado parcial do dia 7 que talvez seja o mais importante: especificidade de 100,0%. As oito entidades fictícias plantadas na cohort — nomes plausíveis em português que correspondem a empresas que não existem — receberam zero falsos positivos em 8.571 queries. A instrumentação está calibrada. Eu posso confiar no que estou medindo. Esse não é um detalhe técnico — é a diferença entre publicar um paper e retratar um paper. Sem esse controle, qualquer afirmação sobre taxa de citação é fé, não dado.
Para chegar aqui, eu tive que jogar fora a versão 1 desse pipeline. Em fevereiro publiquei um paper chamado "Null-Triad: Three Ways to Fail to Conclude" no Zenodo (DOI 10.5281/zenodo.19712217) admitindo que a primeira metodologia tinha três falhas estruturais simultâneas: poder estatístico insuficiente em H1 (vantagem RAG), design que não testava o que media em H2 (alucinação), e um casamento de string que inflava H3 (assimetria entre LLMs). A migração para a v2 derrubou 45% das "citações" que estávamos contando, porque eram falsos positivos do tipo "Inter" sendo capturado dentro de "international", ou "Stone" dentro de "cornerstone".
Foi humilhante e foi necessário. Publicar o Null-Triad antes de iniciar a janela v2 foi a forma mais honesta que encontrei de declarar publicamente: o que eu disse antes estava errado, e aqui está exatamente como.
O que muda no pipeline v2
A versão 2 do estudo, formalizada em METHODOLOGY_V2.md e aberta sob licença MIT em github.com/alexandrebrt14-sys/papers, é diferente da v1 em pontos não-cosméticos:
- NER com word-boundary rigoroso e normalização Unicode dupla (NFC + NFKD), capturando "Itaú" mesmo quando o texto traz "Itau" sem acento, e descartando "Inter" dentro de "international".
- Dicionário canônico de aliases (BTG ↔ BTG Pactual, XP ↔ XP Investimentos, C6 ↔ C6 Bank, Magalu ↔ Magazine Luiza, e mais).
- Oito decoys fictícios plantados na cohort como canários de especificidade — qualquer hit nessas entidades é falso positivo por definição.
- Estimador sanduíche cluster-robust (CR1) para erros-padrão, respeitando o fato de que observações do mesmo dia compartilham estado do modelo.
- Simulação Monte Carlo substituindo thresholds arbitrários por percentis empíricos da distribuição nula.
- Correção BH-FDR para múltiplas comparações.
- Regra de decisão pré-registrada: rejeito a hipótese nula apenas se o p-valor ajustado for menor que 0,05 e o intervalo de 95% excluir o valor nulo.
- Reprodutibilidade container-level: Dockerfile com
PYTHONHASHSEEDpinado,requirements-lock.txtimutável, manifest SHA-256 dos outputs.
O pré-registro na OSF sela cinco hipóteses formais (H1 a H5) antes do início da coleta — vantagem RAG, alucinação, assimetria inter-LLM, sensibilidade a formulação e estabilidade temporal. A janela vai até 21 de julho de 2026. No dia 25 o estudo atinge poder estatístico para H1, no dia 38 para H2. Só vou bater no peito sobre conclusões definitivas em outubro, quando o paper for submetido à Information Sciences (Elsevier, fator de impacto 8,1). Até lá, prometo o que prometi no OSF: vou publicar também os resultados nulos, se aparecerem.
O que já dá para usar na prática (com cautela)
Mesmo antes do fechamento da janela, alguns aprendizados operacionais são suficientemente robustos para entrar no playbook de qualquer marca brasileira que queira ser visível em sistemas generativos:
- Pare de tratar "presença em IA" como uma métrica única. Reporte por modelo. Idealmente por modelo e por idioma. Uma média esconde diferenças de duas ordens de grandeza.
- Se você é fintech ou varejo, o jogo está aberto. A barra de entrada nessas verticais é estruturalmente menor — Fintech 28,6%, Varejo 25,5%. Isso não significa que é fácil; significa que a janela existe.
- Se você é saúde, o trabalho é estrutural. Com 14,0% de taxa de citação, ganhar visibilidade em saúde requer construção de autoridade externa — referências, papers, presença em comunidades médicas — em ciclo longo. Não dá para resolver com SEO técnico.
- Se você está investindo em conteúdo só em português, está deixando dinheiro na mesa em Perplexity, ChatGPT e Claude. A camada de visibilidade internacional importa até para o brasileiro que pergunta em português, porque o modelo cruza idiomas internamente. Conteúdo bilíngue, com base inglesa sólida, é hoje uma alavanca subestimada.
- Não confie em dashboards que prometem "share of voice em IA" sem mostrar o intervalo de confiança, o tamanho de amostra e a metodologia de extração. Provavelmente estão contando "international" como "Inter". A v1 deste mesmo estudo cometeu esse erro durante meses. A diferença entre métrica útil e métrica viciada está no detalhamento metodológico — exija-o.
Sete dias. Mais oitenta e três pela frente
O dataset e o dashboard estão públicos e atualizados em tempo real:
- alexandrecaramaschi.com/research — números do dia, intervalos de confiança, distribuição por vertical, por LLM e por idioma.
- alexandrecaramaschi.com/papers-roadmap — fases, hipóteses, venues alvo, e o que já foi entregue de cada onda.
- github.com/alexandrebrt14-sys/papers — código completo, pipeline, testes, migrations, Dockerfile.
Se você é responsável por marketing de uma marca brasileira e quer entender exatamente como a sua categoria aparece nos cinco LLMs — e não em uma média inútil — eu abri uma fila pequena de auditorias na Brasil GEO especificamente para os setores onde a coleta está puxando sinal mais forte. Fale comigo.
A próxima vez que alguém te disser que "a IA está citando" a sua marca, a resposta correta tem quatro componentes: qual IA, em que idioma, em que vertical e com que intervalo de confiança. Se faltar qualquer um dos quatro, o que está sendo medido não é visibilidade — é folclore.