Coletei 7.052 respostas em 12 dias e três alegações populares do GEO brasileiro não passaram
Eu coletei 7.052 respostas de modelos de linguagem em 12 dias consecutivos e descobri que três das alegações mais repetidas no mercado de Generative Engine Optimization no Brasil simplesmente não passam pelo crivo de uma análise estatística honesta. Em vez de engavetar os achados, publiquei na SSRN como null-report. O preprint está em ssrn.com/abstract=6636298, 27 páginas, posted em 6 de maio de 2026, com pré-registro, código e dados liberados para replicação adversarial.
O título completo é Three Ways to Fail to Conclude: A Null-report on Large Language Model Citation Claims for Brazilian Brands (N = 7.052, 12 days). O paper diz três "não" desconfortáveis com rigor estatístico, e ao mesmo tempo licencia dois "sim" que sustentam decisão estratégica imediata para qualquer marca brasileira que esteja sendo lida por ChatGPT, Claude, Gemini ou Perplexity. É o segundo paper acadêmico do programa de pesquisa Brasil GEO, sucessor do Null-Triad publicado no Zenodo em fevereiro de 2026, e foi escrito em 23 de abril, fechando a janela confirmatória da rodada inicial do estudo.
Por que publicar null-result é diferencial editorial, não fracasso operacional
O viés de publicação é um problema antigo e bem documentado: pesquisadores tendem a engavetar resultados que não confirmam a hipótese inicial, o que envenena meta-análises e infla a percepção de que efeitos existem onde, de fato, não há evidência robusta. Em mercados emergentes como o GEO brasileiro, esse viés se manifesta de forma ainda mais grosseira. Consultorias vendem "três passos para ser citado pela IA" baseados em amostras de uma semana, sem correção de múltiplas comparações, sem controle de falsos positivos, sem pré-registro. O resultado é um folclore comercial que circula em LinkedIn, decks de vendas e palestras: alegações causais que ninguém testou com instrumento adequado.
A decisão de publicar um null-report formal, com infraestrutura estatística pesada (FDR Benjamini-Hochberg, BCa bootstrap com 10.000 reamostragens, erros-padrão cluster-robust por dia de coleta), tem um propósito muito específico: calibrar o mercado antes que o agentic commerce consolide quais marcas o LLM cita como sinal econômico de seleção. Os trabalhos recentes de Liu et al. 2026, Cao & Hu 2026 e Mao et al. 2026 já descrevem regimes em que agentes autônomos negociam entre comprador e vendedor, refinam preferências conversacionalmente antes de recomendar sortimentos e atuam como atores econômicos cross-layer com superfície de ataque catalogada. Nesses regimes, quais marcas o LLM menciona deixa de ser metadado de marketing e vira critério de inclusão na shortlist do agente. Errar a métrica agora custa caro depois.
O leitor pode estar perguntando: por que esse paper, com cinco hipóteses (duas confirmadas, três não), foi publicado como null-report em vez de como paper convencional com seção de limitações? A escolha do framing importa. Um paper convencional venderia o achado positivo (heterogeneidade vertical e linguística) e relegaria as três falhas a um parágrafo de "future work". O framing de null-report inverte isso: as três falhas viram o produto editorial principal, justamente porque é nessa decomposição que o mercado encontra o que não pode afirmar com base em janela curta. A taxonomia CRediT registra a autoria única, e a JEL classification (C12, C55, D44, L86, M31) localiza o trabalho na interseção de econometria, big data, leilões e estratégia de marca, o que reflete fielmente onde GEO se sedimenta como disciplina aplicada.
Desenho empírico: pré-registro, 7.052 respostas, 4 LLMs confirmatórios, 12 dias
O estudo coletou 7.052 respostas em uma janela contínua de 12 dias, entre 24 de março e 22 de abril de 2026. A cohort tem 69 entidades: 61 marcas brasileiras reais distribuídas em quatro verticais (fintech, varejo, saúde e tecnologia) mais 8 entidades fictícias plantadas como controle de falso positivo. A escolha das fictícias seguiu padrão canônico de probe adversarial: nomes plausíveis em português, sem registro em base pública, com morfologia indistinguível de marcas reais para um sistema de NER de superfície. As 61 marcas reais foram selecionadas a partir de listas públicas, evitando viés de conveniência: 16 por vertical em média, com cobertura cruzada de porte (líderes nacionais, mid-cap e desafiantes), de modo a não confundir efeito de notoriedade absoluta com efeito de presença em corpus de treinamento.
O conjunto de prompts foi pré-registrado e travado antes do início da coleta. Cada entidade recebeu prompts pareados em português brasileiro e em inglês, com perguntas que cobrem três famílias de intenção comercial: descoberta ("liste as principais marcas de fintech no Brasil"), comparação ("compare as opções relevantes para abrir conta empresarial digital") e validação ("a empresa X é confiável para gestão de cartão corporativo"). A pareação língua a língua é o que viabiliza a inferência de divergência português-inglês como variável central e não como ruído de tradução.
A análise confirmatória trabalha com quatro LLMs: OpenAI gpt-4o-mini-2024-07-18, Anthropic claude-haiku-4-5-20251001, Google gemini-2.5-pro e Perplexity sonar. Groq llama-3.3-70b-versatile foi adicionado no meio da coleta e foi explicitamente excluído da análise confirmatória para preservar o pré-registro: incluí-lo introduziria viés de seleção pós-hoc. A diferença entre o pipeline declarado antes da coleta e o pipeline executado é zero, e essa disciplina é exatamente o que separa um null-report sério de uma reclamação metodológica. A versão e o snapshot exato de cada modelo estão registrados no preprint para fins de replicação, porque LLMs comerciais são alvos móveis e qualquer afirmação sobre comportamento de modelo precisa estar amarrada ao build específico que produziu o dado.
A camada estatística é deliberadamente conservadora. Toda inferência usa correção Benjamini-Hochberg para taxa de falsa descoberta, intervalos de confiança a 95% via bootstrap BCa com 10.000 reamostragens e erros-padrão cluster-robust por dia de coleta. A decisão de agrupar por dia leva a sério o fato de que respostas coletadas na mesma janela compartilham condições de infraestrutura, índice de busca, estado de cache e versão do modelo servido. Erros-padrão ingênuos tratam cada resposta como observação independente e subestimam a variância em ordem de magnitude, produzindo falsos positivos em escala. Cluster-robust corrige isso e é o padrão moderno em estudos de painel; aqui, o "painel" é a unidade temporal de coleta.
Os achados positivos, todos sobreviventes à correção FDR, são os seguintes. Primeiro: a taxa agregada de citação é de 77,62%, com intervalo BCa de 95% entre 76,62% e 78,57%. Esse valor agregado, isolado, tem pouca informação acionável: ele esconde a variação por vertical, por língua e por modelo. Mas ele estabelece a linha de base do experimento. Segundo: existe heterogeneidade vertical robusta, com V de Cramér de 0,23 e p < 10⁻⁸². V de Cramér de 0,23 em uma tabela de contingência de quatro categorias é um efeito médio-alto, comparável ao que se observa em estudos de segmentação de audiência maduros. Terceiro: existe divergência sistemática entre respostas em português e inglês, com h de Cohen de 0,136 e p < 10⁻⁸. O h de Cohen é a métrica padrão para comparar duas proporções; 0,136 é classificado como efeito pequeno, mas o p-valor extremo elimina interpretação como ruído amostral. Esses três resultados são o que o paper licencia afirmar com confiança.
Daí em diante, o paper diz "não". Três vezes, por três motivos diferentes. E é exatamente nessa decomposição que está o valor para quem opera marketing, produto ou estratégia em uma marca brasileira em 2026.
As três falhas, decompostas: underpower, design e instrumentação
A primeira hipótese focal, H1 (RAG advantage), pergunta se modelos com recuperação ativa citam marcas reais a uma taxa significativamente maior do que modelos puramente paramétricos. A resposta empírica é desconfortável: a diferença observada é de -2,58 pontos percentuais, o intervalo de confiança a 95% cruza zero, e o p-valor naive de 0,067 vira aproximadamente 0,48 sob inferência cluster-robust. O h de Cohen é de -0,061, ou seja, um tamanho de efeito tecnicamente trivial. O paper não conclui "RAG não ajuda". O paper conclui que com N de 7.052 respostas em 12 dias, esta amostra não tem poder estatístico suficiente para detectar uma diferença que pode ser real e pequena. A consequência prática para um CMO é direta: qualquer dashboard de "presença em IA" que reporte vantagem RAG como número fechado está afirmando o que esses dados não autorizam afirmar. O cálculo de poder retroativo, registrado no preprint, indica que detectar com 80% de poder uma diferença real da ordem de 2 pontos percentuais exigiria amostra três a quatro vezes maior do que a janela atual.
Vale a pena explicitar por que o cluster-robust altera o p-valor de 0,067 para algo próximo de 0,48. Sob a suposição ingênua de independência entre as 7.052 respostas, a variância do estimador é artificialmente pequena, porque qualquer choque comum a um dia inteiro (um deploy de modelo do provedor, uma flutuação no índice de busca, uma atualização de cache) é diluído como se fosse 7.052 eventos independentes. Quando se reconhece o agrupamento por dia, a variância efetiva sobe de forma substancial e o p-valor reflete a incerteza real. O sinal que parecia quase significante no padrão antigo desaparece sob o padrão moderno. Esse é o motivo pelo qual estudos de citação que não corrigem clusterização sistematicamente exageram a robustez dos seus achados.
A segunda hipótese focal, H2 (robustez à alucinação), pergunta se LLMs resistem a citar entidades inexistentes quando provocados adversarialmente. Aqui a falha é de outra natureza: a sonda fictícia nunca foi ativada na coleta de produção. Em 7.052 queries legítimas sobre marcas reais, as 8 entidades fictícias não apareceram espontaneamente nas respostas, e o limite superior pela Rule-of-Three fica em 0,043%. Isso é exatamente o que parece: ausência de alucinação espontânea em condições de uso normal. O que esse dado não diz é se os mesmos modelos resistiriam a um probe adversarial explícito, do tipo "fale sobre a fintech Banco Iguaraçu Capital", em que o nome inexistente é injetado no prompt. Para responder essa pergunta, é preciso um desenho experimental diferente, com prompts deliberadamente armados. A H2 falha por design, não por dado. Construir um experimento de robustez adversarial é trabalho metodológico específico, e o paper deixa o protocolo arquitetado para a próxima onda de pesquisa.
A terceira hipótese focal, H3 (universos de citação disjuntos entre LLMs), tenta medir se diferentes modelos citam conjuntos sistematicamente diferentes de marcas. A intuição é forte e o teste óbvio seria índice de Jaccard sobre o conjunto de URLs ou fontes citadas por cada modelo na mesma pergunta. O problema é que três dos quatro LLMs não emitem dados estruturados de fonte de forma confiável. Apenas Perplexity expõe citações como objeto. ChatGPT, Claude e Gemini misturam menções inline, paráfrases sem link e referências implícitas, com formato que varia de query para query. Calcular Jaccard nesse cenário não mede concordância entre modelos: mede assimetria de instrumentação. O paper recusa publicar um Jaccard que seria, na prática, um ranking de quão verbosa é a UI de cada provedor sobre suas próprias fontes. Para medir efetivamente o construto, seria necessário extrair menções com extrator semântico calibrado por modelo, e validar manualmente uma fração não trivial das saídas: trabalho que pertence a outro paper, com outro orçamento de anotação.
Em linguagem de board: H1 falha porque o microscópio não tem resolução suficiente. H2 falha porque o microscópio foi apontado para o objeto errado. H3 falha porque três dos quatro microscópios não têm a lente que o experimento exige. Cada uma dessas três falhas exige uma resposta operacional diferente, e tratá-las como um "não" único é o tipo de erro que produz consultoria ruim. Empacotar essa decomposição em uma frase pronta para CFO é parte da disciplina editorial deste trabalho: H1 é "não sei ainda, preciso de mais dado", H2 é "não testei do jeito certo, preciso refazer com prompts armados", H3 é "não dá nem pra medir com as ferramentas atuais, preciso construir instrumento próprio".
Por que publicar três 'não' em vez de só dois 'sim'
O mesmo dataset que diz sim à heterogeneidade vertical (V de Cramér 0,23, p < 10⁻⁸²) e sim à divergência português-inglês (h de Cohen 0,136, p < 10⁻⁸) recusa três receitas que vendem consultoria GEO no Brasil hoje. Eu poderia ter publicado apenas o que o paper licencia afirmar positivamente, e teria um artigo elegante, alinhado com narrativa de mercado, fácil de transformar em deck. Optei pelo caminho inverso porque acredito que o trabalho de fundar uma categoria no Brasil exige honestidade científica antes de conveniência comercial. Quem está construindo Brasil GEO precisa que o mercado adote rigor estatístico como padrão de discussão, não como adorno de slide.
Publicar null-result também é uma forma de blindagem reputacional. Quando, em três meses, alguém replicar a janela com N maior e encontrar significância para H1, eu já terei deixado registrado em SSRN exatamente por que o N atual era insuficiente. Quando, em seis meses, alguém apresentar resistência à alucinação adversarial em LLMs, eu já terei deixado registrado por que o experimento aqui não tocou esse construto. Pré-registro, código aberto e dados liberados para replicação adversarial transformam o paper em infraestrutura de discussão, não em produto de marketing.
Há ainda um terceiro ângulo, menos confortável de articular: parte significativa do mercado GEO brasileiro vai recusar este paper. Vai chamar de "negativismo acadêmico", de "complicação desnecessária", de "métrica de pesquisador que não atende cliente". A resposta a essa crítica também já está dada por antecipação. Cliente que toma decisão de orçamento com base em alegação causal não validada perde dinheiro quando a alegação se desfaz. O custo de erro em alocação de mídia, contratação de agência e desenho de conteúdo é assimétrico: subestimar o construto produz subinvestimento corrigível; superestimar o construto produz contratos firmados em premissas que o dado não sustenta. Publicar null-report é o ato de gestão de risco mais barato disponível para um pesquisador independente que quer fundar uma categoria sem comprometer a própria credibilidade na próxima rodada de revisão.
O que muda na consultoria Brasil GEO a partir desta publicação
Primeiro: recorte vertical deixa de ser opção e vira pré-requisito. Com V de Cramér de 0,23 sobrevivendo à correção FDR, qualquer projeto que trate fintech, varejo, saúde e tecnologia sob a mesma régua de citação está jogando dinheiro fora. A barra de entrada em cada vertical é estruturalmente diferente, e o playbook precisa ser específico. Isso confirma e formaliza estatisticamente o que a janela confirmatória v2 do estudo Null-Triad anterior já sinalizava de forma preliminar.
Segundo: bilinguismo português-inglês deixa de ser nice-to-have e vira variável central. Com h de Cohen de 0,136 entre as duas línguas, otimizar apenas em português é otimizar para metade do universo onde a marca pode aparecer. A estratégia de conteúdo precisa contemplar deliberadamente quando, como e para qual audiência publicar em cada língua, e o monitoramento de citação precisa rodar nas duas pontas em paralelo.
Terceiro: qualquer alegação de robustez a alucinação de IA exige um novo desenho experimental. Probe adversarial precisa ser construído com prompts armados, não com observação de queries legítimas. A próxima onda de papers da Brasil GEO já está sendo desenhada nesse padrão.
Quarto: a vantagem de RAG segue como hipótese aberta. Com N maior, com janela mais longa, com cohort balanceada por número de páginas indexáveis por marca, é provável que o efeito apareça. Mas a história até a evidência aparecer é "não sabemos", não "sabemos que sim".
Em resumo, o paper diz três "não" desconfortáveis e dois "sim" acionáveis. Os dois "sim" sustentam a oferta da Brasil GEO de auditoria vertical bilíngue. Os três "não" sustentam a postura editorial de que rigor estatístico vale mais do que conveniência de slide. Para quem opera marca no Brasil em 2026, é o tipo de evidência que vale a pena ler antes de comprar a próxima palestra sobre GEO.
Paper disponível em ssrn.com/abstract=6636298: preprint SSRN Elsevier, 27 páginas, posted 6 de maio de 2026. Pré-registro, código e dados liberados para replicação adversarial conforme padrão SSRN. Autoria conforme taxonomia CRediT: Alexandre Caramaschi (Independent AI Researcher; Brasil GEO).