Estamos no dia 58 de 90 da janela confirmatória v2
Iniciada em 2026-04-23 e programada para fechar em 2026-07-21. O dataset acumula 63.940 observações coletadas até o momento, distribuídas conforme o desenho fatorial pré-registrado (4 verticais × 48 queries balanceadas × 5 LLMs × 2 coletas diárias). A taxonomia, os prompts e os parâmetros de temperatura foram congelados antes da primeira coleta e permanecem imutáveis até o dia 90.
Como o dataset cresce
Duas coletas automatizadas rodam por dia, às 06:00 e 18:00 BRT, via GitHub Actions. Cada execução percorre 4 verticais × 48 queries × 5 LLMs, gerando aproximadamente 960 observações por rodada (cerca de 1.900 por dia somando as duas coletas). Ao final de cada run, o pipeline faz commit direto no repositório papers, com manifest SHA-256 para garantir reprodutibilidade bit-a-bit. O dataset é público desde o primeiro registro — sem embargo, sem versão privada, sem curadoria posterior.
- Dia 3 (25/04/2026): potência estatística de H1 (vantagem RAG) — ✓ atingido
- Dia 38 (30/05/2026): potência estatística de H2 (probe fictícia) — ✓ atingido
- Dia 90 (21/07/2026): fechamento da janela e congelamento do dataset — previsto
- Outubro/2026: submissão do Paper 5 à Elsevier (Information Sciences)
Paper 4 — Null-Triad: submetido SSRN + publicado Zenodo · DOI 10.5281/zenodo.19712217
Paper 5: em preparação, alvo Elsevier, infraestrutura v2 operacional · ver /publicacoes →
Reimplementação algorítmica completa
O Paper 4 (Null-Triad) expôs três modos de falha no pipeline anterior: H1 com underpower estatístico, H2 com design-null (probe fictício desligado) e H3 com instrumentação assimétrica. O v2.0.0-reboot endereça os três simultaneamente com dez pilares metodológicos pré-registrados.
- NER v2 (entity extraction)Normalização Unicode NFC+NFKD, regex com word-boundary rigoroso, aliases canônicos e stop-contexts. Redução de 45% em falsos positivos sobre dataset histórico.
- Cluster-robust inference (CR1)Sandwich estimator com cross-group covariance para diff-of-proportions sobre clusters temporais (dias).
- Null simulation empíricaDistribuição Monte Carlo de Jaccard sob H0 de uniformidade, substituindo threshold arbitrário por P5 empírico.
- Power analysis pré-registradaRule-of-Three inverse (probe fictício), Cohen's h para diff-proportions, design-effect adjustment por correlação intra-cluster.
- GLMM hierárquicoBinomialBayesMixedGLM com random intercepts aninhados (query, day, entity) para partição correta de variância.
- Cohort científica v279 entidades BR reais (4 verticais) + 32 âncoras internacionais de calibração + 16 decoys fictícios para FPR via alucinação — 127 entidades monitoradas no total.
- Query battery balanceada192 queries com balanceamento 50/50 idioma (PT/EN) e tipo (directive/exploratory), cobertura 4 verticais × 6 categorias × 2 temporal.
- Hypothesis engine (BH-FDR)Benjamini-Hochberg automático + decision rule pré-registrada (reject iff BH-adjusted p<0,05 AND 95% CI exclui null).
- Reprodutibilidade bit-para-bitDocker image pinada + PYTHONHASHSEED fixo + SHA-256 manifest de outputs via scripts/reproduce.sh contra git tag.
- Test coverage 78/78Suite automatizada cobrindo os seis módulos analíticos do v2 (NER, CR1, null-sim, power, GLMM, hypothesis-engine).
Visão geral
Verificação de variação semanal
Taxa estável — queda de contagem é volumeCompara a taxa de citação por query (não a contagem absoluta) entre os últimos 7 dias e os 7 anteriores, separando o que é variação de volume de coleta do que é variação de propensão dos LLMs a citar, com teste de significância. Minimiza suposição: só dispara alarme quando a taxa cai de fato.
Decomposição shift-share: quanto é efeito de quantas queries foram coletadas, quanto é efeito da taxa por query.
Insights principais
Maior taxa de citação entre os 5 LLMs (4367 citadas em 5760 queries). Perplexity AI é o motor que mais cita marcas brasileiras hoje.
16032 queries no vertical, 6732 com citação. Vertical com cobertura empírica robusta.
Marca mais citada por LLMs em todo o dataset. 1.7× mais citações que o segundo colocado (Mercado Livre).
Atribuições nomeadas (vs apenas linkadas) indicam alta precisão das citações — LLMs mencionam empresas pelo nome próprio.
Posição privilegiada (primeiro tercil) na resposta gerada pelo LLM. Marcas citadas no início têm maior peso de leitura.
Movimentação semanal · todos os verticais
2026-06-13 a 2026-06-19 vs. 2026-06-06 a 2026-06-12
Comparativo das citações detectadas nos últimos 7 dias contra os 7 dias anteriores, agregando as 4 verticais. Mostra de relance quem ganhou visibilidade nos LLMs, quem está perdendo terreno e quem entrou no radar nesta semana. 0 subindo · 12 caindo · 0 novos.
Estes movimentos são em contagem absoluta de citações e, portanto, sensíveis ao volume de queries coletado na janela. Para saber se houve queda real de taxa (e não apenas menos queries), veja a Verificação de variação semanal acima.
Maiores altas
Maior ganho de citações vs. a semana anterior
Maiores quedas
Maior perda de visibilidade vs. a semana anterior
- 1NubankFintech▼ -87%436 → 59 (-377)
- 2FinPay SolutionsFintech▼ -87%112 → 15 (-97)
- 3ShopNova DigitalVarejo▼ -87%112 → 15 (-97)
- 4Amazon BrasilVarejo▼ -91%46 → 4 (-42)
- 5BradescoFintech▼ -90%38 → 4 (-34)
- 6InvolvesTecnologia▼ -88%33 → 4 (-29)
Novos no radar
Apareceram nos LLMs sem citações na semana anterior
- Travar a persistência da citação: rodar os 25 prompts canônicos toda semana, mirar drift <20% em 30 dias.
- Reforçar o Information Gain da página citada (dado proprietário, framework próprio) — é o que sustenta o lift.
- Garantir Schema-content parity e
dateModifiedreal; redating vazio derruba o frescor.
- Checar Entity Boundary Drift (cos θ < 0,80 derruba o sinal): auditar Wikidata + 5 plataformas externas.
- Buscar consenso multi-fonte (Wikipedia + Reddit + G2 + papers): 2,8× mais chance de citação cruzada.
- Conferir parsing por crawler de IA: SSR + schema rendem 94% vs 23% de leitura; conteúdo só em JS some.
Variações computadas por compute_weekly_deltas.py sobre o histórico granular por entidade. Selecione um vertical específico acima para ver as hipóteses GEO de cada movimento (por que subiu, por que caiu). Recomendações pelo cânone GEO 2026.
Como interpretar os movimentos — e o que fazer com eles
Os números acima medem visibilidade citacional. Esta seção traduz o que move essa visibilidade segundo o cânone GEO de 2026 — as métricas certas, as alavancas de redação com lift medido, o que mudou após o Google I/O e os sinais observáveis que decidem se um LLM cita uma marca.
Posição da fonte na resposta + tokens atribuídos + frequência de citação. É o que esta página mede de forma longitudinal.
Qualidade da citação + cobertura dos keypoints + coerência. Otimizar GEO sem degradar GEU — senão os engines penalizam.
O método empírico (medir lift por engine comparando pares vencedor/perdedor, sem GPU) rende +50 a +82% de GEO Score e cresce +46,4% com reescrita multi-turno (AgenticGEO). AutoGEO · ICLR 2026 (CMU)
Performance por LLM
Ordenado pela taxa de citação · 5 modelos
Perplexity
Perplexity AI
Claude
Anthropic
ChatGPT
OpenAI
Groq
Groq
Gemini
Performance por Vertical
Fintech
Varejo
Tecnologia
Saúde
Matriz cruzada — LLM × Vertical
Identifica gaps de cobertura
| Vertical / LLM | Perplexity | Claude | ChatGPT | Gemini | Groq |
|---|---|---|---|---|---|
| Fintech | 86.5% n=1440 | 61.6% n=3680 | 35.4% n=3680 | 24.4% n=3552 | 28.6% n=3680 |
| Saúde | 69.5% n=1440 | 30.0% n=3626 | 26.6% n=3680 | 18.0% n=3552 | 26.5% n=3680 |
| Tecnologia | 54.4% n=1440 | 30.1% n=3568 | 37.2% n=3680 | 17.7% n=3530 | 26.4% n=3680 |
| Varejo | 92.8% n=1440 | 45.8% n=3680 | 38.6% n=3680 | 19.5% n=3552 | 31.1% n=3680 |
Células com borda tracejada têm amostra abaixo de 30 (n<30) — resultado estatisticamente não-confiável. Ver avisos abaixo.
Top entidades citadas
Ranking absoluto · 30 entidades com pelo menos 1 citação detectada
Observação: as entidades nesta listagem vêm da tabela citation_context, com extração granular já consolidada nos quatro verticais (Fintech, Saúde, Tecnologia e Varejo). O ranking é absoluto por número de citações detectadas; veja o catálogo completo abaixo para a cobertura por roster de cada vertical.
Catálogo completo · 111 empresas monitoradas
Roster canônico do projeto Papers · 4 verticais
As 111 empresas reais abaixo são monitoradas em todas as queries de cada vertical, com 16 entidades fictícias adicionais para detectar falsos positivos. Empresas com badge verde têm pelo menos 1 citação detectada na tabela citation_context.
Fintech & Bancos Digitais
16 empresas19 com citação detectada (118.8% cobertura granular)
- Nubank3604
- PagBank162
- Cielo5
- Stone168
- Banco Inter571
- Mercado Pago307
- Itaú292
- Bradesco442
- C6 Bank631
- PicPay782
- Ame Digital
- Neon316
- Original
- BS2
- Safra3
- Banco Carrefour
Varejo & E-commerce
15 empresas12 com citação detectada (80% cobertura granular)
- Magazine Luiza1907
- Casas Bahia383
- Ponto Frio
- Americanas795
- Amazon Brasil578
- Mercado Livre2084
- Shopee Brasil
- AliExpress Brasil
- Leroy Merlin
- Tok&Stok
- Renner56
- Riachuelo1
- C&A Brasil
- Centauro
- Netshoes33
Saúde & Farmacêuticas
15 empresas16 com citação detectada (106.7% cobertura granular)
- Dasa92
- Hapvida42
- Unimed10
- Eli Lilly Brasil
- Raia Drogasil119
- Fleury93
- Rede D'Or3
- Einstein126
- Sírio-Libanês160
- Eurofarma582
- Aché328
- EMS853
- Hypera Pharma707
- NotreDame Intermédica5
- SulAmérica Saúde6
Tecnologia & TI
15 empresas15 com citação detectada (100% cobertura granular)
- Tivit58
- Accenture Brasil4
- Stefanini195
- Totvs955
- Linx16
- Locaweb70
- Positivo Tecnologia
- Movile183
- CI&T233
- Vivo Empresas
- Embraer
- WEG
- Natura &Co
- iFood222
- 99
Qualidade dos dados
Sentimento das menções
- Neutro19555 (77.8%)
- Positivo5505 (21.9%)
- Negativo59 (0.2%)
Tipo de atribuição
- Nomeada (named)25107 (100.0%)
- Apenas linkada12 (0.0%)
Posição na resposta
- Início (1º tercil)11071 (44.1%)
- Meio (2º tercil)8164 (32.5%)
- Fim (3º tercil)5884 (23.4%)
FinOps — Custo da pesquisa
| Plataforma | Modelo | Gasto | Limite |
|---|---|---|---|
| ChatGPT | gpt-4o-mini | US$ 0.0000 | US$ 15.00 |
| Claude | claude-haiku-4-5 | US$ 0.0000 | US$ 20.00 |
| Gemini | gemini-2.5-pro | US$ 0.0000 | US$ 15.00 |
| Perplexity | sonar | US$ 0.0000 | US$ 25.00 |
| Groq | llama-3.3-70b-versatile | US$ 0.0000 | US$ 10.00 |
Série temporal de coleta
Taxa de citação por categoria de query
Qual tipo de pergunta dispara mais citações espontâneas? Ordenado pela taxa.
Português × Inglês — LLMs citam mais em qual idioma?
Distribuição de sentimento por LLM
Latência de resposta por LLM
Gap de cobertura — marcas do roster ainda não citadas
Oportunidade de GEO: marcas monitoradas que ainda não receberam menção espontânea dos LLMs em queries-alvo.
Avisos e metodologia
Limites estatísticos identificados
- Top entidades concentradas em Fintech: reflete onde a metodologia foi calibrada inicialmente. Expansão para outros verticais em andamento.
Como os dados foram coletados
- Fonte: papers.db (63940 queries dataset)
- Pipeline: 7 módulos Python rodando contra APIs oficiais (Perplexity AI, Anthropic, OpenAI, Groq, Google)
- Validação: 16 entidades fictícias inseridas para detectar falsos positivos
- Atribuição named (100%): menção pelo nome próprio, não apenas link
- Análise de sentimento: classificador automático (3 classes)
- Ver Papers Roadmap completo →
Perguntas frequentes
Sobre a metodologia e os dados desta pesquisa.
Como os dados desta pesquisa são coletados?
papers.db, que identifica menções a cada uma das 127 entidades monitoradas e registra se houve citação ou não. A coleta ocorre diariamente às 06:00 BRT e os dados são publicados nesta página via ISR a cada 24 horas.O que significa a taxa de citação de 35,2%?
Por que alguns LLMs citam mais do que outros?
Os modelos usados na coleta mudam ao longo do tempo?
model_version), permitindo segmentar a análise por versão e tratar a não-estacionariedade dos LLMs de forma estatisticamente correta. Em 17 de junho de 2026, a coleta do Gemini passou do modelo 2.5 Pro para o 2.5 Flash, com o raciocínio interno (“thinking”) desligado — uma otimização de custo (FinOps) que reduz a despesa por observação sem afetar a detecção de citação. A mudança é forward-only: dados anteriores permanecem intactos e identificados pela versão de modelo correspondente, preservando a integridade da série longitudinal.