Multi-LLM cross-check
Mesmas queries enviadas a 4 LLMs (ChatGPT, Claude, Gemini, Perplexity) simultaneamente. Convergência entre modelos é evidência forte; divergência identifica viés específico.
Mesmas queries enviadas a 4 LLMs (ChatGPT, Claude, Gemini, Perplexity) simultaneamente. Convergência entre modelos é evidência forte; divergência identifica viés específico.
Marcas inventadas inseridas nas queries para detectar falsos positivos. Se um LLM cita uma entidade fictícia, sabemos que está alucinando — invalidação automática do dado.
Apenas 5 das 172 menções analisadas são linkadas sem nome. 97% (167) são citações pelo nome próprio da empresa — alta precisão, baixo ruído.
Metodologia revisada simulando os critérios de Hinton (cross-validação), Bengio (sensibilidade ao prompt), LeCun (validação humana), Karpathy (estatística correta), Kaplan (scaling) e Gomez (RAG vs paramétrico).
Tokens reais extraídos de cada resposta de API (zero estimativas). Circuit breaker automático em spike, hard stop em 95% do orçamento. US$ 0,18 mensal de custo total comprovado.
Código completo no GitHub. Pipeline auto-contido em SQLite (papers.db commitado no repo para reprodutibilidade). Qualquer pesquisador pode replicar a coleta com as mesmas queries, mesmos LLMs, mesmas configurações.
Motores de busca generativos estão substituindo buscas tradicionais para uma parcela crescente de usuários. Mas a literatura acadêmica sobre como os LLMs selecionam, citam e atribuem fontes é praticamente inexistente. Não há datasets públicos, não há metodologia padronizada e não há estudos longitudinais.
O projeto Papers resolve esses três problemas simultaneamente com um framework multi-vertical que monitora 4 setores da economia brasileira — Fintech, Varejo, Saúde e Tecnologia — cada um com sua própria coorte de ~15 entidades monitoradas em 5 LLMs. São 61 entidades, 55 queries padronizadas por vertical e framework estatístico completo (chi-squared, ANOVA, regressão logística, Fisher exact test) para publicação em venues como SIGIR, WWW, WSDM e Information Sciences.
Monitora citações de entidades em 4 verticais (Fintech, Varejo, Saúde, Tecnologia) em 5 LLMs. 61 entidades, 17 campos por observação: cited, position, attribution, hedging, sentiment, sources.
Cada vertical possui sua própria coorte de 15+ entidades monitoradas nas mesmas queries. Comparação cross-vertical de padrões de citação. Essencial para significância estatística.
Jaccard index semanal entre top 10 Google e fontes citadas pelos LLMs. Prova que GEO e diferente de SEO.
Framework A/B testing. Registra intervenções (Schema.org, llms.txt) e mede impacto na citação com Fisher exact test.
Analisa COMO a entidade e citada: sentimento, atribuição, precisão factual, detecção de alucinações. 30+ padrões regex.
Chi-squared, t-test, ANOVA, regressão logística, Bonferroni. Effect sizes: Cohen-d, Cramer-V, eta-squared. Publication-ready.
Tokens reais da API (nunca estimativas). Circuit breaker, anomaly detection, alertas por email, dashboard auto-gerado.
Cada vertical possui sua própria coorte de entidades monitoradas simultaneamente em 4 LLMs. Execução sequencial por vertical para manter o orçamento dentro do limite FinOps. Cada card mostra a taxa de citação real medida.
Resultados verificáveis contra papers.db (17.531 queries). Cada número abaixo pode ser reproduzido executando os scripts Python contra o mesmo banco.
Perplexity AI
Anthropic
OpenAI
Groq
Todos os artefatos produzidos pelo projeto Papers estão acessíveis publicamente. O dashboard de pesquisa requer verificação por email para acesso.
Dashboard interativo com gate de verificação por email. Acesso via código de 6 dígitos. Visualiza citações por LLM, ranking de entidades, série temporal e status FinOps para os 4 verticais.
Esta página. Roadmap visual do projeto com status de cada fase, stack tecnológica detalhada, painel de especialistas e requisitos de publicação acadêmica.
Código-fonte open-source (MIT). 4.600+ linhas de Python, 7 módulos de coleta, API REST FastAPI com 17 endpoints, 3 workflows GitHub Actions automatizados.
FastAPI com 17 endpoints organizados em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps. Executar localmente: python -m src.cli serve --port 8000. Documentação Swagger em /docs.
Dashboard HTML auto-gerado após cada coleta em output/finops_dashboard.html. Gauge de gastos por provider, série temporal de custos, alertas ativos e status do circuit breaker.
Cada tarefa tem status, tipo e critério mensurável. Estilo Microsoft 365 Roadmap.
Billing ativado, 5 LLMs operacionais, CI/CD validado, primeira coleta realizada
Sabatina com 16 fraquezas identificadas, 9 correções implementadas (3 críticas + 6 maiores). Coleta dual, word boundary, 4 verticais, 72 entidades, query routing inteligente. Context analyzer, intervention tracking, concurrency groups e limpeza de dependências.
API REST FastAPI, dashboard React, sync Supabase, gate de email, publicação online. Testes e CI/CD em progresso.
90 dias de coleta contínua em 4 verticais, 2 experimentos A/B, datasets reprodutíveis por setor
Próximos saltos matemáticos depois da entrega da bridge Papers ↔ GEO Score Checker (08/04/2026)
1 preprint ArXiv (multi-vertical) + 2 submissões a conferências tier-1 e journals
O Paper 4 — "Three Ways to Fail to Conclude: A Null-Triad in GEO Research" — demonstrou que a metodologia v1 sofria de três modos de falha: H1 underpower RAG, H2 design-null (probe fictício desligado) e H3 instrumentação assimétrica. O reboot v2 corrige os três e reconstrói o pipeline para submissão a Elsevier.
Word-boundary rigoroso, aliases e stop-contexts. Dry-run em 2.000 linhas: −45% de falsos positivos (v1 cited=1.409 → v2 cited=776).
Estimador CR1 para diferença de proporções entre grupos que compartilham clusters (dias de coleta).
Substitui o threshold Jaccard arbitrário de 0.30 pelo P5 empírico sob H0 de uniformidade. Threshold vira dado, não opinião.
Rule-of-3 inverso (H2), Cohen's h (H1/H4), design effect (H5). Gera roadmap de dias-até-target-power por hipótese.
statsmodels BinomialBayesMixedGLM com random intercepts aninhados (query, day, entity). Resolve dependência intra-cluster.
80 BR reais + 32 anchors internacionais + 16 decoys fictícios (4 verticais × 4). Anchors permitem cross-vertical comparison.
Balanceadas 50/50 PT/EN e 50/50 directive/exploratory. 4 verticais × 6 categorias × 2 línguas × 2 tipos × 2 temporal.
BH-FDR automático e decision rule pré-registrada: rejeitar H0 se e somente se p-ajustado BH < 0,05 E IC 95% exclui o nulo.
Dockerfile com PYTHONHASHSEED=20260424, requirements-lock.txt pinado, scripts/reproduce.sh regenera tabelas via git tag com SHA-256 manifest.
entity_extraction (24) · cluster_robust (6) · null_simulation (8) · power_analysis (10) · config_v2 (16) · hypothesis_engine (14).
Simulamos uma revisão pelo nível de exigência de Yoshua Bengio, Geoffrey Hinton, Yann LeCun, Andrej Karpathy, Aidan Gomez e Jared Kaplan. Cada crítica gerou uma correção implementada no código.
O objetivo central do projeto Papers e gerar dados empíricos que sustentem artigos científicos aceitos em conferências tier-1 e journals de Information Retrieval. Cada venue tem regras rígidas que o sistema precisa atender nativamente.
Cada chamada de API é rastreada com contagem real de tokens extraída da resposta. Com 4 verticais e 18 queries por vertical, o volume é de ~288 chamadas/dia (72 queries x 5 LLMs). Custo real medido: $0,12/rodada ($3,60/mês). Orçamento global de $35/mês com hard stop automático, circuit breaker por provider, rate limiting (Gemini 4s/query) e alertas por email.
| Plataforma | Modelo | Input/1M | Output/1M | Mensal | Diário | Alerta | Hard Stop |
|---|---|---|---|---|---|---|---|
| OpenAI | gpt-4o-mini | $0.15 | $0.60 | $10 | $1.00 | 70% | 95% |
| Anthropic | claude-haiku-4.5 | $0.80 | $4.00 | $10 | $1.00 | 70% | 95% |
| gemini-2.5-flash | $0.15 | $0.60 | $5 | $0.50 | 80% | 100% | |
| Perplexity | sonar | $1.00 | $1.00 | $10 | $1.00 | 70% | 95% |
| GLOBAL | — | — | — | $35 | $3.50 | 70% | 95% |
Da coleta de dados ao deploy em produção: tecnologias selecionadas para reprodutibilidade acadêmica, custo mínimo e operação autônoma via CI/CD.
Cada tecnologia com justificativa e alternativas descartadas.
Código, dados e documentação do projeto Papers são open source (MIT). 4.609 linhas de Python, 19 testes, 3 workflows GitHub Actions.
Ver no GitHubPerguntas frequentes
Diagnóstico gratuito de 30 minutos para identificar o potencial de visibilidade da sua marca nos motores generativos.
Agendar diagnósticoAlexandre Caramaschi — CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil
brasilgeo.ai | alexandrecaramaschi.com | ORCID: 0009-0004-9150-485X