Coletei 7.052 respostas em 12 dias e três alegações populares do GEO brasileiro não passaram
Com 7.052 respostas de modelos de linguagem coletadas em 12 dias consecutivos, três das alegações mais repetidas no mercado de Generative Engine Optimization no Brasil não passam pelo crivo de uma análise estatística honesta. Em vez de engavetar os achados, publiquei o resultado na SSRN como null-report — 27 páginas, com pré-registro, código e dados liberados para replicação adversarial: ssrn.com/abstract=6636298.
O título completo é Three Ways to Fail to Conclude: A Null-report on Large Language Model Citation Claims for Brazilian Brands (N = 7.052, 12 days), posted em 6 de maio de 2026. O paper diz três "não" desconfortáveis com rigor estatístico e, ao mesmo tempo, licencia dois "sim" que sustentam decisão estratégica imediata para qualquer marca brasileira lida por ChatGPT, Claude, Gemini ou Perplexity.
É o segundo paper acadêmico do programa de pesquisa Brasil GEO, sucessor do Null-Triad publicado no Zenodo em fevereiro de 2026. Foi escrito em 23 de abril de 2026, fechando a janela confirmatória da rodada inicial do estudo.
Por que publicar null-result é diferencial editorial, não fracasso operacional
Publicar um null-report formal — com FDR Benjamini-Hochberg, BCa bootstrap e erros-padrão cluster-robust — tem um propósito preciso: calibrar o mercado antes que o agentic commerce consolide quais marcas o LLM cita como sinal econômico de seleção. No GEO brasileiro, o viés de publicação se manifesta de forma grosseira: consultorias vendem alegações causais baseadas em amostras de uma semana, sem correção de múltiplas comparações e sem pré-registro. Null-report é o antídoto.
O viés de publicação é um problema antigo e bem documentado: pesquisadores tendem a engavetar resultados que não confirmam a hipótese inicial, o que envenena meta-análises e infla a percepção de que efeitos existem onde não há evidência robusta. No GEO brasileiro, esse viés produz folclore comercial que circula em LinkedIn, decks de vendas e palestras — alegações causais que ninguém testou com instrumento adequado.
A urgência do agentic commerce justifica o rigor agora. Os trabalhos recentes de Liu et al. 2026, Cao & Hu 2026 e Mao et al. 2026 já descrevem regimes em que agentes autônomos negociam entre comprador e vendedor, refinam preferências conversacionalmente antes de recomendar sortimentos e atuam como atores econômicos cross-layer. Nesses regimes, quais marcas o LLM menciona deixa de ser metadado de marketing e vira critério de inclusão na shortlist do agente. Errar a métrica agora custa caro depois.
A escolha do framing de null-report inverte a lógica convencional. Um paper convencional venderia os dois achados positivos (heterogeneidade vertical e linguística) e relegaria as três falhas a um parágrafo de "future work". O framing de null-report faz o oposto: as três falhas viram o produto editorial principal, porque é nessa decomposição que o mercado encontra o que não pode afirmar com base em janela curta. A JEL classification (C12, C55, D44, L86, M31) localiza o trabalho na interseção de econometria, big data, leilões e estratégia de marca — exatamente onde GEO se sedimenta como disciplina aplicada.
Desenho empírico: pré-registro, 7.052 respostas, 4 LLMs confirmatórios, 12 dias
O estudo coletou 7.052 respostas em 12 dias contínuos (24 de março a 22 de abril de 2026), com cohort de 69 entidades: 61 marcas brasileiras reais em quatro verticais (fintech, varejo, saúde, tecnologia) mais 8 fictícias como controle adversarial. Os prompts foram pré-registrados e pareados em português e inglês, cobrindo descoberta, comparação e validação comercial. Quatro LLMs confirmatórios operaram durante toda a janela; a camada estatística usa BH-FDR, BCa bootstrap e erros-padrão cluster-robust.
A cohort de entidades seguiu critério de seleção por listas públicas — 16 marcas por vertical em média, cobrindo líderes nacionais, mid-cap e desafiantes — para não confundir efeito de notoriedade absoluta com presença em corpus de treinamento. As 8 entidades fictícias foram concebidas com nomes plausíveis em português, sem registro em base pública, com morfologia indistinguível de marcas reais para um sistema de NER de superfície.
O conjunto de prompts foi travado antes do início da coleta. A pareação língua a língua — português brasileiro e inglês — é o que viabiliza a inferência de divergência linguística como variável central, e não como ruído de tradução.
Os quatro LLMs confirmatórios são: OpenAI gpt-4o-mini-2024-07-18, Anthropic claude-haiku-4-5-20251001, Google gemini-2.5-pro e Perplexity sonar. Groq llama-3.3-70b-versatile foi adicionado no meio da coleta e excluído da análise confirmatória para preservar o pré-registro: incluí-lo introduziria viés de seleção pós-hoc. A versão exata de cada modelo está registrada no preprint, porque LLMs comerciais são alvos móveis e qualquer afirmação sobre comportamento de modelo precisa estar amarrada ao build específico.
A camada estatística é deliberadamente conservadora: toda inferência usa correção Benjamini-Hochberg para taxa de falsa descoberta, intervalos de confiança a 95% via bootstrap BCa com 10.000 reamostragens e erros-padrão cluster-robust por dia de coleta. O agrupamento por dia reconhece que respostas obtidas na mesma janela compartilham condições de infraestrutura, índice de busca, estado de cache e versão do modelo servido. Erros-padrão ingênuos subestimam a variância em ordem de magnitude; cluster-robust corrige isso.
Os achados positivos, todos sobreviventes à correção FDR, são três. Primeiro: taxa agregada de citação de 77,62% (intervalo BCa 95%: 76,62%–78,57%) — valor que, isolado, esconde a variação por vertical, língua e modelo, mas estabelece a linha de base. Segundo: heterogeneidade vertical robusta, com V de Cramér de 0,23 e p < 10⁻⁸² — efeito médio-alto comparável a estudos maduros de segmentação de audiência. Terceiro: divergência sistemática entre português e inglês, com h de Cohen de 0,136 e p < 10⁻⁸ — efeito pequeno, mas p-valor extremo que elimina interpretação como ruído amostral.
Daí em diante, o paper diz "não". Três vezes, por três motivos diferentes — e é exatamente nessa decomposição que está o valor para quem opera marketing, produto ou estratégia em uma marca brasileira em 2026.
As três falhas, decompostas: underpower, design e instrumentação
As três hipóteses que falharam no paper não fracassaram pelo mesmo motivo: H1 falha por poder estatístico insuficiente, H2 falha por design experimental inadequado e H3 falha por instrumentação assimétrica. Tratar as três como um "não" único produz consultoria ruim — cada falha exige resposta operacional diferente.
H1 (RAG advantage) pergunta se modelos com recuperação ativa citam marcas reais a uma taxa significativamente maior do que modelos puramente paramétricos. A diferença observada é de -2,58 pontos percentuais: o intervalo de confiança a 95% cruza zero, e o p-valor naive de 0,067 sobe para aproximadamente 0,48 sob inferência cluster-robust. O h de Cohen de -0,061 é tecnicamente trivial. O paper não conclui "RAG não ajuda" — conclui que esta amostra não tem poder estatístico suficiente para detectar uma diferença que pode ser real e pequena. O cálculo retroativo registrado no preprint indica que detectar com 80% de poder uma diferença real de 2 pontos percentuais exigiria amostra três a quatro vezes maior. Qualquer dashboard de "presença em IA" que reporte vantagem RAG como número fechado está afirmando o que esses dados não autorizam.
O cluster-robust altera o p-valor de 0,067 para ~0,48 porque a suposição ingênua de independência entre 7.052 respostas é falsa: qualquer choque comum a um dia inteiro (deploy de modelo, flutuação de índice de busca, atualização de cache) seria diluído como se fossem 7.052 eventos independentes. Quando o agrupamento por dia é reconhecido, a variância efetiva sobe e o p-valor reflete a incerteza real. Estudos de citação que não corrigem clusterização exageram sistematicamente a robustez dos achados.
H2 (robustez à alucinação) pergunta se LLMs resistem a citar entidades inexistentes quando provocados adversarialmente. A falha aqui é de design: a sonda fictícia nunca foi ativada na coleta de produção. Em 7.052 queries legítimas sobre marcas reais, as 8 entidades fictícias não apareceram espontaneamente nas respostas — o limite superior pela Rule-of-Three fica em 0,043%. O que esse dado não diz é se os mesmos modelos resistiriam a um probe explícito com o nome inexistente injetado no prompt ("fale sobre a fintech Banco Iguaraçu Capital"). Para responder essa pergunta, é preciso desenho experimental diferente, com prompts deliberadamente armados. A H2 falha por design, não por dado.
H3 (universos de citação disjuntos entre LLMs) tenta medir se diferentes modelos citam conjuntos sistematicamente diferentes de marcas. O teste óbvio seria índice de Jaccard sobre fontes citadas por cada modelo na mesma pergunta. O problema: três dos quatro LLMs não emitem dados estruturados de fonte de forma confiável. Apenas Perplexity expõe citações como objeto. ChatGPT, Claude e Gemini misturam menções inline, paráfrases sem link e referências implícitas. Calcular Jaccard nesse cenário não mede concordância entre modelos — mede assimetria de instrumentação. O paper recusa publicar um Jaccard que seria, na prática, um ranking de quão verbosa é a UI de cada provedor sobre suas próprias fontes.
Em linguagem de board: H1 é "não sei ainda, preciso de mais dado"; H2 é "não testei do jeito certo, preciso refazer com prompts armados"; H3 é "não dá para medir com as ferramentas atuais, preciso construir instrumento próprio".
Por que publicar três 'não' em vez de só dois 'sim'
O mesmo dataset que confirma heterogeneidade vertical (V de Cramér 0,23, p < 10⁻⁸²) e divergência português-inglês (h de Cohen 0,136, p < 10⁻⁸) recusa três receitas que vendem consultoria GEO no Brasil hoje. Publicar os três "não" ao lado dos dois "sim" é uma escolha editorial deliberada: fundar uma categoria no Brasil exige honestidade científica antes de conveniência comercial.
Publicar null-result é blindagem reputacional. Quando, em três meses, alguém replicar a janela com N maior e encontrar significância para H1, o registro em SSRN já documentará exatamente por que o N atual era insuficiente. Quando, em seis meses, alguém apresentar resistência à alucinação adversarial, o registro já documentará por que o experimento atual não tocou esse construto. Pré-registro, código aberto e dados liberados para replicação adversarial transformam o paper em infraestrutura de discussão, não em produto de marketing.
O custo de superestimar é assimétrico. Parte do mercado GEO brasileiro vai recusar este paper — "negativismo acadêmico", "complicação desnecessária", "métrica de pesquisador que não atende cliente". A resposta está na assimetria de erro: subestimar o construto produz subinvestimento corrigível; superestimar produz contratos firmados em premissas que o dado não sustenta. Publicar null-report é o ato de gestão de risco mais barato disponível para quem quer fundar uma categoria sem comprometer a própria credibilidade na próxima rodada de revisão.
O que muda na consultoria Brasil GEO a partir desta publicação
O paper diz três "não" desconfortáveis e dois "sim" acionáveis. Os dois "sim" sustentam a oferta da Brasil GEO de auditoria vertical bilíngue; os três "não" eliminam alegações causais que não resistem ao dado. Para qualquer marca brasileira operando em 2026, há quatro mudanças imediatas.
Primeiro: recorte vertical deixa de ser opção e vira pré-requisito. Com V de Cramér de 0,23 sobrevivendo à correção FDR, qualquer projeto que trate fintech, varejo, saúde e tecnologia sob a mesma régua de citação desperdiça orçamento. A barra de entrada em cada vertical é estruturalmente diferente, e o playbook precisa ser específico por setor.
Segundo: bilinguismo português-inglês deixa de ser nice-to-have e vira variável central. Com h de Cohen de 0,136 entre as duas línguas, otimizar apenas em português é otimizar para metade do universo onde a marca pode aparecer. A estratégia de conteúdo precisa contemplar quando, como e para qual audiência publicar em cada língua, com monitoramento de citação rodando nas duas pontas em paralelo.
Terceiro: qualquer alegação de robustez a alucinação de IA exige novo desenho experimental. Probe adversarial precisa ser construído com prompts armados, não com observação de queries legítimas. A próxima onda de papers da Brasil GEO já está sendo desenhada nesse padrão.
Quarto: a vantagem de RAG segue como hipótese aberta. Com N maior, janela mais longa e cohort balanceada por número de páginas indexáveis, é provável que o efeito apareça. Até que a evidência chegue, a narrativa correta é "não sabemos", não "sabemos que sim".
Paper disponível em ssrn.com/abstract=6636298: preprint SSRN Elsevier, 27 páginas, posted 6 de maio de 2026. Pré-registro, código e dados liberados para replicação adversarial conforme padrão SSRN. Autoria conforme taxonomia CRediT: Alexandre Caramaschi (Independent AI Researcher; Brasil GEO).