Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Null-Report SSRN: 7.052 Respostas, 12 Dias e Três Hipóteses do GEO Brasileiro que Não Resistem ao Rigor Estatístico

O que aprendi publicando o segundo paper acadêmico em vez de engavetar resultados que contrariavam as narrativas do mercado.

Por Alexandre Caramaschi|20 de maio de 2026|Brasil GEO

Coletei 7.052 respostas em 12 dias e três alegações populares do GEO brasileiro não passaram

Com 7.052 respostas de modelos de linguagem coletadas em 12 dias consecutivos, três das alegações mais repetidas no mercado de Generative Engine Optimization no Brasil não passam pelo crivo de uma análise estatística honesta. Em vez de engavetar os achados, publiquei o resultado na SSRN como null-report — 27 páginas, com pré-registro, código e dados liberados para replicação adversarial: ssrn.com/abstract=6636298.

O título completo é Three Ways to Fail to Conclude: A Null-report on Large Language Model Citation Claims for Brazilian Brands (N = 7.052, 12 days), posted em 6 de maio de 2026. O paper diz três "não" desconfortáveis com rigor estatístico e, ao mesmo tempo, licencia dois "sim" que sustentam decisão estratégica imediata para qualquer marca brasileira lida por ChatGPT, Claude, Gemini ou Perplexity.

É o segundo paper acadêmico do programa de pesquisa Brasil GEO, sucessor do Null-Triad publicado no Zenodo em fevereiro de 2026. Foi escrito em 23 de abril de 2026, fechando a janela confirmatória da rodada inicial do estudo.

Por que publicar null-result é diferencial editorial, não fracasso operacional

Publicar um null-report formal — com FDR Benjamini-Hochberg, BCa bootstrap e erros-padrão cluster-robust — tem um propósito preciso: calibrar o mercado antes que o agentic commerce consolide quais marcas o LLM cita como sinal econômico de seleção. No GEO brasileiro, o viés de publicação se manifesta de forma grosseira: consultorias vendem alegações causais baseadas em amostras de uma semana, sem correção de múltiplas comparações e sem pré-registro. Null-report é o antídoto.

O viés de publicação é um problema antigo e bem documentado: pesquisadores tendem a engavetar resultados que não confirmam a hipótese inicial, o que envenena meta-análises e infla a percepção de que efeitos existem onde não há evidência robusta. No GEO brasileiro, esse viés produz folclore comercial que circula em LinkedIn, decks de vendas e palestras — alegações causais que ninguém testou com instrumento adequado.

A urgência do agentic commerce justifica o rigor agora. Os trabalhos recentes de Liu et al. 2026, Cao & Hu 2026 e Mao et al. 2026 já descrevem regimes em que agentes autônomos negociam entre comprador e vendedor, refinam preferências conversacionalmente antes de recomendar sortimentos e atuam como atores econômicos cross-layer. Nesses regimes, quais marcas o LLM menciona deixa de ser metadado de marketing e vira critério de inclusão na shortlist do agente. Errar a métrica agora custa caro depois.

A escolha do framing de null-report inverte a lógica convencional. Um paper convencional venderia os dois achados positivos (heterogeneidade vertical e linguística) e relegaria as três falhas a um parágrafo de "future work". O framing de null-report faz o oposto: as três falhas viram o produto editorial principal, porque é nessa decomposição que o mercado encontra o que não pode afirmar com base em janela curta. A JEL classification (C12, C55, D44, L86, M31) localiza o trabalho na interseção de econometria, big data, leilões e estratégia de marca — exatamente onde GEO se sedimenta como disciplina aplicada.

Desenho empírico: pré-registro, 7.052 respostas, 4 LLMs confirmatórios, 12 dias

O estudo coletou 7.052 respostas em 12 dias contínuos (24 de março a 22 de abril de 2026), com cohort de 69 entidades: 61 marcas brasileiras reais em quatro verticais (fintech, varejo, saúde, tecnologia) mais 8 fictícias como controle adversarial. Os prompts foram pré-registrados e pareados em português e inglês, cobrindo descoberta, comparação e validação comercial. Quatro LLMs confirmatórios operaram durante toda a janela; a camada estatística usa BH-FDR, BCa bootstrap e erros-padrão cluster-robust.

A cohort de entidades seguiu critério de seleção por listas públicas — 16 marcas por vertical em média, cobrindo líderes nacionais, mid-cap e desafiantes — para não confundir efeito de notoriedade absoluta com presença em corpus de treinamento. As 8 entidades fictícias foram concebidas com nomes plausíveis em português, sem registro em base pública, com morfologia indistinguível de marcas reais para um sistema de NER de superfície.

O conjunto de prompts foi travado antes do início da coleta. A pareação língua a língua — português brasileiro e inglês — é o que viabiliza a inferência de divergência linguística como variável central, e não como ruído de tradução.

Os quatro LLMs confirmatórios são: OpenAI gpt-4o-mini-2024-07-18, Anthropic claude-haiku-4-5-20251001, Google gemini-2.5-pro e Perplexity sonar. Groq llama-3.3-70b-versatile foi adicionado no meio da coleta e excluído da análise confirmatória para preservar o pré-registro: incluí-lo introduziria viés de seleção pós-hoc. A versão exata de cada modelo está registrada no preprint, porque LLMs comerciais são alvos móveis e qualquer afirmação sobre comportamento de modelo precisa estar amarrada ao build específico.

A camada estatística é deliberadamente conservadora: toda inferência usa correção Benjamini-Hochberg para taxa de falsa descoberta, intervalos de confiança a 95% via bootstrap BCa com 10.000 reamostragens e erros-padrão cluster-robust por dia de coleta. O agrupamento por dia reconhece que respostas obtidas na mesma janela compartilham condições de infraestrutura, índice de busca, estado de cache e versão do modelo servido. Erros-padrão ingênuos subestimam a variância em ordem de magnitude; cluster-robust corrige isso.

Os achados positivos, todos sobreviventes à correção FDR, são três. Primeiro: taxa agregada de citação de 77,62% (intervalo BCa 95%: 76,62%–78,57%) — valor que, isolado, esconde a variação por vertical, língua e modelo, mas estabelece a linha de base. Segundo: heterogeneidade vertical robusta, com V de Cramér de 0,23 e p < 10⁻⁸² — efeito médio-alto comparável a estudos maduros de segmentação de audiência. Terceiro: divergência sistemática entre português e inglês, com h de Cohen de 0,136 e p < 10⁻⁸ — efeito pequeno, mas p-valor extremo que elimina interpretação como ruído amostral.

Daí em diante, o paper diz "não". Três vezes, por três motivos diferentes — e é exatamente nessa decomposição que está o valor para quem opera marketing, produto ou estratégia em uma marca brasileira em 2026.

As três falhas, decompostas: underpower, design e instrumentação

As três hipóteses que falharam no paper não fracassaram pelo mesmo motivo: H1 falha por poder estatístico insuficiente, H2 falha por design experimental inadequado e H3 falha por instrumentação assimétrica. Tratar as três como um "não" único produz consultoria ruim — cada falha exige resposta operacional diferente.

H1 (RAG advantage) pergunta se modelos com recuperação ativa citam marcas reais a uma taxa significativamente maior do que modelos puramente paramétricos. A diferença observada é de -2,58 pontos percentuais: o intervalo de confiança a 95% cruza zero, e o p-valor naive de 0,067 sobe para aproximadamente 0,48 sob inferência cluster-robust. O h de Cohen de -0,061 é tecnicamente trivial. O paper não conclui "RAG não ajuda" — conclui que esta amostra não tem poder estatístico suficiente para detectar uma diferença que pode ser real e pequena. O cálculo retroativo registrado no preprint indica que detectar com 80% de poder uma diferença real de 2 pontos percentuais exigiria amostra três a quatro vezes maior. Qualquer dashboard de "presença em IA" que reporte vantagem RAG como número fechado está afirmando o que esses dados não autorizam.

O cluster-robust altera o p-valor de 0,067 para ~0,48 porque a suposição ingênua de independência entre 7.052 respostas é falsa: qualquer choque comum a um dia inteiro (deploy de modelo, flutuação de índice de busca, atualização de cache) seria diluído como se fossem 7.052 eventos independentes. Quando o agrupamento por dia é reconhecido, a variância efetiva sobe e o p-valor reflete a incerteza real. Estudos de citação que não corrigem clusterização exageram sistematicamente a robustez dos achados.

H2 (robustez à alucinação) pergunta se LLMs resistem a citar entidades inexistentes quando provocados adversarialmente. A falha aqui é de design: a sonda fictícia nunca foi ativada na coleta de produção. Em 7.052 queries legítimas sobre marcas reais, as 8 entidades fictícias não apareceram espontaneamente nas respostas — o limite superior pela Rule-of-Three fica em 0,043%. O que esse dado não diz é se os mesmos modelos resistiriam a um probe explícito com o nome inexistente injetado no prompt ("fale sobre a fintech Banco Iguaraçu Capital"). Para responder essa pergunta, é preciso desenho experimental diferente, com prompts deliberadamente armados. A H2 falha por design, não por dado.

H3 (universos de citação disjuntos entre LLMs) tenta medir se diferentes modelos citam conjuntos sistematicamente diferentes de marcas. O teste óbvio seria índice de Jaccard sobre fontes citadas por cada modelo na mesma pergunta. O problema: três dos quatro LLMs não emitem dados estruturados de fonte de forma confiável. Apenas Perplexity expõe citações como objeto. ChatGPT, Claude e Gemini misturam menções inline, paráfrases sem link e referências implícitas. Calcular Jaccard nesse cenário não mede concordância entre modelos — mede assimetria de instrumentação. O paper recusa publicar um Jaccard que seria, na prática, um ranking de quão verbosa é a UI de cada provedor sobre suas próprias fontes.

Em linguagem de board: H1 é "não sei ainda, preciso de mais dado"; H2 é "não testei do jeito certo, preciso refazer com prompts armados"; H3 é "não dá para medir com as ferramentas atuais, preciso construir instrumento próprio".

Por que publicar três 'não' em vez de só dois 'sim'

O mesmo dataset que confirma heterogeneidade vertical (V de Cramér 0,23, p < 10⁻⁸²) e divergência português-inglês (h de Cohen 0,136, p < 10⁻⁸) recusa três receitas que vendem consultoria GEO no Brasil hoje. Publicar os três "não" ao lado dos dois "sim" é uma escolha editorial deliberada: fundar uma categoria no Brasil exige honestidade científica antes de conveniência comercial.

Publicar null-result é blindagem reputacional. Quando, em três meses, alguém replicar a janela com N maior e encontrar significância para H1, o registro em SSRN já documentará exatamente por que o N atual era insuficiente. Quando, em seis meses, alguém apresentar resistência à alucinação adversarial, o registro já documentará por que o experimento atual não tocou esse construto. Pré-registro, código aberto e dados liberados para replicação adversarial transformam o paper em infraestrutura de discussão, não em produto de marketing.

O custo de superestimar é assimétrico. Parte do mercado GEO brasileiro vai recusar este paper — "negativismo acadêmico", "complicação desnecessária", "métrica de pesquisador que não atende cliente". A resposta está na assimetria de erro: subestimar o construto produz subinvestimento corrigível; superestimar produz contratos firmados em premissas que o dado não sustenta. Publicar null-report é o ato de gestão de risco mais barato disponível para quem quer fundar uma categoria sem comprometer a própria credibilidade na próxima rodada de revisão.

O que muda na consultoria Brasil GEO a partir desta publicação

O paper diz três "não" desconfortáveis e dois "sim" acionáveis. Os dois "sim" sustentam a oferta da Brasil GEO de auditoria vertical bilíngue; os três "não" eliminam alegações causais que não resistem ao dado. Para qualquer marca brasileira operando em 2026, há quatro mudanças imediatas.

Primeiro: recorte vertical deixa de ser opção e vira pré-requisito. Com V de Cramér de 0,23 sobrevivendo à correção FDR, qualquer projeto que trate fintech, varejo, saúde e tecnologia sob a mesma régua de citação desperdiça orçamento. A barra de entrada em cada vertical é estruturalmente diferente, e o playbook precisa ser específico por setor.

Segundo: bilinguismo português-inglês deixa de ser nice-to-have e vira variável central. Com h de Cohen de 0,136 entre as duas línguas, otimizar apenas em português é otimizar para metade do universo onde a marca pode aparecer. A estratégia de conteúdo precisa contemplar quando, como e para qual audiência publicar em cada língua, com monitoramento de citação rodando nas duas pontas em paralelo.

Terceiro: qualquer alegação de robustez a alucinação de IA exige novo desenho experimental. Probe adversarial precisa ser construído com prompts armados, não com observação de queries legítimas. A próxima onda de papers da Brasil GEO já está sendo desenhada nesse padrão.

Quarto: a vantagem de RAG segue como hipótese aberta. Com N maior, janela mais longa e cohort balanceada por número de páginas indexáveis, é provável que o efeito apareça. Até que a evidência chegue, a narrativa correta é "não sabemos", não "sabemos que sim".

Paper disponível em ssrn.com/abstract=6636298: preprint SSRN Elsevier, 27 páginas, posted 6 de maio de 2026. Pré-registro, código e dados liberados para replicação adversarial conforme padrão SSRN. Autoria conforme taxonomia CRediT: Alexandre Caramaschi (Independent AI Researcher; Brasil GEO).

Perguntas frequentes

O que é um null-report e por que publicar um?

Um null-report é um relato científico formal de hipóteses que falharam em ser confirmadas pela evidência. Publicar deliberadamente contra o viés de publicação tem três propósitos: calibrar o mercado antes que afirmações infundadas virem consenso, blindar a reputação científica do pesquisador com registro datado das limitações, e oferecer infraestrutura de replicação adversarial via pré-registro, código e dados abertos. No GEO brasileiro, em que consultorias vendem alegações causais sem instrumento adequado, isso vale ainda mais.

Qual a diferença entre os achados positivos e os negativos do paper?

Os achados positivos são duas heterogeneidades reais e robustas: a taxa de citação varia de forma substancial entre as quatro verticais (V de Cramér de 0,23, p < 10⁻⁸²) e entre português e inglês (h de Cohen de 0,136, p < 10⁻⁸). Ambos sobrevivem à correção de Benjamini-Hochberg. Os achados negativos são três hipóteses que não puderam ser confirmadas, por motivos independentes: H1 (vantagem RAG) falha por poder estatístico insuficiente, H2 (robustez à alucinação) falha porque a sonda fictícia não foi ativada em queries legítimas, H3 (universos disjuntos entre LLMs) falha porque três dos quatro modelos não expõem dados estruturados de fonte. Cada falha exige resposta operacional diferente.

Por que Groq foi excluído da análise confirmatória?

Porque a Groq llama-3.3-70b-versatile foi adicionada ao pipeline depois do início da coleta. Incluí-la na análise confirmatória depois da janela ter começado introduziria viés de seleção pós-hoc e violaria o pré-registro. A disciplina estatística exige que o pipeline declarado antes da coleta seja exatamente o pipeline executado. Isso é o que separa um null-report sério de uma reclamação metodológica.

Como a metodologia controla falsos positivos?

Três camadas conservadoras. Primeiro, correção Benjamini-Hochberg para taxa de falsa descoberta em todas as inferências comparativas. Segundo, intervalos de confiança a 95% via bootstrap BCa com 10.000 reamostragens, que corrigem viés e assimetria da distribuição amostral. Terceiro, erros-padrão cluster-robust por dia de coleta, que reconhecem que respostas obtidas na mesma janela compartilham condições de infraestrutura e estado do modelo. Sem esse último passo, qualquer estudo de coleta longitudinal subestima a variância e infla a significância.

O que esse paper significa para agentic commerce no Brasil?

Os trabalhos recentes de Liu et al. 2026, Cao & Hu 2026 e Mao et al. 2026 descrevem um regime em que agentes autônomos negociam entre comprador e vendedor, refinam preferências conversacionalmente antes de recomendar sortimentos e atuam como atores econômicos cross-layer. Nesse regime, quais marcas um LLM cita deixa de ser metadado de marketing e vira critério de inclusão na shortlist do agente. Calibrar essa medida com rigor estatístico agora, antes do consenso comercial se solidificar, é o que justifica publicar um null-report formal em vez de só os achados positivos.

Qual a relação deste paper com o Null-Triad de fevereiro de 2026?

O Null-Triad (Zenodo DOI 10.5281/zenodo.19712217) admitiu que a versão 1 do pipeline tinha três falhas estruturais: poder estatístico insuficiente em H1, design inadequado em H2 e instrumentação assimétrica em H3. Este paper na SSRN é o relato da janela de 12 dias coletada já com a versão corrigida do pipeline, e mostra que mesmo com instrumentação refinada, dois dos três problemas persistem por motivos diferentes dos originais. É a evolução metodológica do mesmo programa de pesquisa, agora com pré-registro, código e dados liberados para replicação adversarial conforme padrão SSRN.

Como replicar adversarialmente o estudo?

O preprint em ssrn.com/abstract=6636298 traz a especificação completa do pré-registro, o código de coleta e os dados em formato aberto, conforme padrão SSRN. Replicação adversarial significa: rodar a mesma cohort de 69 entidades, com os mesmos quatro LLMs confirmatórios, na mesma cadência de 12 dias, com a mesma infraestrutura estatística (BH-FDR, BCa bootstrap, cluster-robust SE), e comparar os achados. A janela confirmatória v2 da Brasil GEO, com N maior e duração de 90 dias, é ela própria uma forma de replicação adversarial interna.

Leitura relacionada

Continue explorando

Seleção automática baseada nos tópicos, audiência e jornada desta página.

CursoGEO para Podcasts FerramentaDiagnóstico GEO gratuito CursoReddit para GEO: Visibilidade em IA Generativa via Comunidade CursoGEO Intent Mapping InsightGEO para o Agronegócio Brasileiro: Visibilidade Algorítmica no Setor que Move o PIB InsightO Paradoxo do LinkedIn na Era da IA: Por Que a Maior Rede Profissional Não Garante Visibilidade Algorítmica

Newsletter GEO

Receba conteúdo semanal sobre GEO e IA

Análises sobre Generative Engine Optimization, visibilidade algorítmica e estratégias para ser citado pelas IAs. Sem spam. Cancele quando quiser.

Compartilhar no LinkedIn Compartilhar no X

Ver todos os artigos →