Estamos no dia 13 de 90 da janela confirmatória v2
Iniciada em 2026-04-23 e programada para fechar em 2026-07-21. O dataset acumula 13.051 observações coletadas até o momento, distribuídas conforme o desenho fatorial pré-registrado (4 verticais × 48 queries balanceadas × 5 LLMs × 2 coletas diárias). A taxonomia, os prompts e os parâmetros de temperatura foram congelados antes da primeira coleta e permanecem imutáveis até o dia 90.
Como o dataset cresce
Duas coletas automatizadas rodam por dia, às 06:00 e 18:00 BRT, via GitHub Actions. Cada execução percorre 4 verticais × 48 queries × 5 LLMs, gerando aproximadamente 960 observações diárias. Ao final de cada run, o pipeline faz commit direto no repositório papers, com manifest SHA-256 para garantir reprodutibilidade bit-a-bit. O dataset é público desde o primeiro registro — sem embargo, sem versão privada, sem curadoria posterior.
- Dia 3 (25/04/2026): potência estatística de H1 atingida (vantagem RAG)
- Dia 38 (30/05/2026): potência estatística de H2 atingida (probe fictícia)
- Dia 90 (21/07/2026): fechamento da janela e congelamento do dataset
- Outubro/2026: submissão do Paper 5 à Elsevier
Paper 4 — Null-Triad: submetido SSRN + publicado Zenodo · DOI 10.5281/zenodo.19712217
Paper 5: em preparação, alvo Elsevier, infraestrutura v2 operacional · ver /publicacoes →
Reimplementação algorítmica completa
O Paper 4 (Null-Triad) expôs três modos de falha no pipeline anterior: H1 com underpower estatístico, H2 com design-null (probe fictício desligado) e H3 com instrumentação assimétrica. O v2.0.0-reboot endereça os três simultaneamente com dez pilares metodológicos pré-registrados.
- NER v2 (entity extraction)Normalização Unicode NFC+NFKD, regex com word-boundary rigoroso, aliases canônicos e stop-contexts. Redução de 45% em falsos positivos sobre dataset histórico.
- Cluster-robust inference (CR1)Sandwich estimator com cross-group covariance para diff-of-proportions sobre clusters temporais (dias).
- Null simulation empíricaDistribuição Monte Carlo de Jaccard sob H0 de uniformidade, substituindo threshold arbitrário por P5 empírico.
- Power analysis pré-registradaRule-of-Three inverse (probe fictício), Cohen's h para diff-proportions, design-effect adjustment por correlação intra-cluster.
- GLMM hierárquicoBinomialBayesMixedGLM com random intercepts aninhados (query, day, entity) para partição correta de variância.
- Cohort científica v280 entidades BR reais (4 verticais × 20) + 32 anchors internacionais + 16 decoys fictícios para calibração de FPR via alucinação.
- Query battery balanceada192 queries com balanceamento 50/50 idioma (PT/EN) e tipo (directive/exploratory), cobertura 4 verticais × 6 categorias × 2 temporal.
- Hypothesis engine (BH-FDR)Benjamini-Hochberg automático + decision rule pré-registrada (reject iff BH-adjusted p<0,05 AND 95% CI exclui null).
- Reprodutibilidade bit-para-bitDocker image pinada + PYTHONHASHSEED fixo + SHA-256 manifest de outputs via scripts/reproduce.sh contra git tag.
- Test coverage 78/78Suite automatizada cobrindo os seis módulos analíticos do v2 (NER, CR1, null-sim, power, GLMM, hypothesis-engine).
Visão geral
Insights principais
Maior taxa de citação entre os 5 LLMs (1112 citadas em 1344 queries). Perplexity AI é o motor que mais cita marcas brasileiras hoje.
3280 queries no vertical, 1118 com citação. Vertical com cobertura empírica robusta.
Marca mais citada por LLMs em todo o dataset. 1.6× mais citações que o segundo colocado (Magazine Luiza).
Atribuições nomeadas (vs apenas linkadas) indicam alta precisão das citações — LLMs mencionam empresas pelo nome próprio.
Posição privilegiada (primeiro tercil) na resposta gerada pelo LLM. Marcas citadas no início têm maior peso de leitura.
Performance por LLM
Ordenado pela taxa de citação · 5 modelos
Perplexity
Perplexity AI
Claude
Anthropic
ChatGPT
OpenAI
Groq
Groq
Gemini
Performance por Vertical
Fintech
Varejo
Tecnologia
Saúde
Matriz cruzada — LLM × Vertical
Identifica gaps de cobertura
| Vertical / LLM | Perplexity | Claude | ChatGPT | Gemini |
|---|---|---|---|---|
| Fintech | — | — | — | — |
| Saúde | — | — | — | — |
| Tecnologia | — | — | — | — |
| Varejo | — | — | — | — |
Células com borda tracejada têm amostra abaixo de 30 (n<30) — resultado estatisticamente não-confiável. Ver avisos abaixo.
Top entidades citadas
Ranking absoluto · 30 entidades com pelo menos 1 citação detectada
Observação: as entidades nesta listagem vêm da tabela citation_context, que atualmente tem extração detalhada apenas no vertical Fintech (onde a metodologia foi calibrada). Para os demais verticais, ver o catálogo completo abaixo — os dados de queries e taxa por vertical são reais, mas o roster por entidade ainda está em processo de extração granular.
Catálogo completo · 61 empresas monitoradas
Roster canônico do projeto Papers · 4 verticais
As 61 empresas reais abaixo são monitoradas em todas as queries de cada vertical, com 8 entidades fictícias adicionais para detectar falsos positivos. Empresas com badge verde têm pelo menos 1 citação detectada na tabela citation_context.
Fintech & Bancos Digitais
16 empresas17 com citação detectada (106.2% cobertura granular)
- Nubank853
- PagBank50
- Cielo
- Stone39
- Banco Inter192
- Mercado Pago99
- Itaú118
- Bradesco158
- C6 Bank200
- PicPay236
- Ame Digital
- Neon124
- Original
- BS2
- Safra3
- Banco Carrefour
Varejo & E-commerce
15 empresas11 com citação detectada (73.3% cobertura granular)
- Magazine Luiza542
- Casas Bahia149
- Ponto Frio
- Americanas270
- Amazon Brasil194
- Mercado Livre495
- Shopee Brasil
- AliExpress Brasil
- Leroy Merlin
- Tok&Stok
- Renner13
- Riachuelo1
- C&A Brasil
- Centauro
- Netshoes9
Saúde & Farmacêuticas
15 empresas15 com citação detectada (100% cobertura granular)
- Dasa12
- Hapvida11
- Unimed9
- Eli Lilly Brasil
- Raia Drogasil30
- Fleury16
- Rede D'Or
- Einstein21
- Sírio-Libanês28
- Eurofarma178
- Aché98
- EMS246
- Hypera Pharma217
- NotreDame Intermédica4
- SulAmérica Saúde6
Tecnologia & TI
15 empresas14 com citação detectada (93.3% cobertura granular)
- Tivit18
- Accenture Brasil4
- Stefanini69
- Totvs224
- Linx10
- Locaweb20
- Positivo Tecnologia
- Movile47
- CI&T56
- Vivo Empresas
- Embraer
- WEG
- Natura &Co
- iFood47
- 99
Qualidade dos dados
Sentimento das menções
- Neutro4387 (74.8%)
- Positivo1463 (25.0%)
- Negativo13 (0.2%)
Tipo de atribuição
- Nomeada (named)5863 (100.0%)
- Apenas linkada0 (0.0%)
Posição na resposta
- Início (1º tercil)2424 (41.3%)
- Meio (2º tercil)1981 (33.8%)
- Fim (3º tercil)1458 (24.9%)
FinOps — Custo da pesquisa
| Plataforma | Modelo | Gasto | Limite |
|---|---|---|---|
| ChatGPT | gpt-4o-mini | US$ 0.0000 | US$ 15.00 |
| Claude | claude-haiku-4-5 | US$ 0.0000 | US$ 20.00 |
| Gemini | gemini-2.5-pro | US$ 0.0000 | US$ 15.00 |
| Perplexity | sonar | US$ 0.0000 | US$ 25.00 |
| Groq | llama-3.3-70b-versatile | US$ 0.0000 | US$ 10.00 |
Série temporal de coleta
Taxa de citação por categoria de query
Qual tipo de pergunta dispara mais citações espontâneas? Ordenado pela taxa.
Português × Inglês — LLMs citam mais em qual idioma?
Distribuição de sentimento por LLM
Latência de resposta por LLM
Gap de cobertura — marcas do roster ainda não citadas
Oportunidade de GEO: marcas monitoradas que ainda não receberam menção espontânea dos LLMs em queries-alvo.
Avisos e metodologia
Limites estatísticos identificados
- Top entidades concentradas em Fintech: reflete onde a metodologia foi calibrada inicialmente. Expansão para outros verticais em andamento.
Como os dados foram coletados
- Fonte: papers.db (13051 queries dataset)
- Pipeline: 7 módulos Python rodando contra APIs oficiais (OpenAI, Anthropic, Google, Perplexity)
- Validação: 8 entidades fictícias inseridas para detectar falsos positivos
- Atribuição named (97%): menção pelo nome próprio, não apenas link
- Análise de sentimento: classificador automático (3 classes)
- Ver Papers Roadmap completo →
Perguntas frequentes
Sobre a metodologia e os dados desta pesquisa.
Como os dados desta pesquisa são coletados?
papers.db, que identifica menções a cada uma das 69 entidades monitoradas e registra se houve citação ou não. A coleta ocorre diariamente às 06:00 BRT e os dados são publicados nesta página via ISR a cada 24 horas.