Alexandre Caramaschi

doi:10.2139/ssrn.6460680

PESQUISA EMPÍRICA EM GEO

v2.0.0-reboot · 23/04/2026

Papers
Pesquisa empírica confiável em GEO

Framework científico para Generative Engine Optimization com metodologia auditada por critérios de Hinton, Bengio, LeCun, Karpathy e Kaplan. 4 verticais (Fintech, Saúde, Tecnologia, Varejo), 69 entidades monitoradas — 61 reais + 8 fictícias para validação anti-falso-positivo — em 4 LLMs. Todos os dados verificáveis contra o banco original (open source MIT).

Última coleta: 13 de maio de 2026 · Repo: 13/05/2026, 11:43:17

17.531

Queries coletadas

Empíricas, verificáveis

5.177

Citações encontradas

29.5% taxa global

Entidades monitoradas

61 reais + 8 fictícias

97%

Atribuição nomeada

167 named de 172 contextos

Critérios peer review

Hinton · Bengio · LeCun · Karpathy · Kaplan · Gomez

US$ 0.00

Custo mensal

0.00% do orçamento

Por que confiar nesta pesquisa

6 pilares de confiabilidade científica

Multi-LLM cross-check

Mesmas queries enviadas a 4 LLMs (ChatGPT, Claude, Gemini, Perplexity) simultaneamente. Convergência entre modelos é evidência forte; divergência identifica viés específico.

8 entidades fictícias

Marcas inventadas inseridas nas queries para detectar falsos positivos. Se um LLM cita uma entidade fictícia, sabemos que está alucinando — invalidação automática do dado.

97% atribuição nomeada

Apenas 5 das 172 menções analisadas são linkadas sem nome. 97% (167) são citações pelo nome próprio da empresa — alta precisão, baixo ruído.

Auditoria por 6 critérios peer review

Metodologia revisada simulando os critérios de Hinton (cross-validação), Bengio (sensibilidade ao prompt), LeCun (validação humana), Karpathy (estatística correta), Kaplan (scaling) e Gomez (RAG vs paramétrico).

FinOps governado

Tokens reais extraídos de cada resposta de API (zero estimativas). Circuit breaker automático em spike, hard stop em 95% do orçamento. US$ 0,18 mensal de custo total comprovado.

Open source MIT + reproduzível

Código completo no GitHub. Pipeline auto-contido em SQLite (papers.db commitado no repo para reprodutibilidade). Qualquer pesquisador pode replicar a coleta com as mesmas queries, mesmos LLMs, mesmas configurações.

CONTEXTO

Por que pesquisa empírica em GEO

Motores de busca generativos estão substituindo buscas tradicionais para uma parcela crescente de usuários. Mas a literatura acadêmica sobre como os LLMs selecionam, citam e atribuem fontes é praticamente inexistente. Não há datasets públicos, não há metodologia padronizada e não há estudos longitudinais.

O projeto Papers resolve esses três problemas simultaneamente com um framework multi-vertical que monitora 4 setores da economia brasileira — Fintech, Varejo, Saúde e Tecnologia — cada um com sua própria coorte de ~15 entidades monitoradas em 5 LLMs. São 61 entidades, 55 queries padronizadas por vertical e framework estatístico completo (chi-squared, ANOVA, regressão logística, Fisher exact test) para publicação em venues como SIGIR, WWW, WSDM e Information Sciences.

ARQUITETURA

7 módulos, 3 workflows, zero intervenção manual

01Citation Tracker

Monitora citações de entidades em 4 verticais (Fintech, Varejo, Saúde, Tecnologia) em 5 LLMs. 61 entidades, 17 campos por observação: cited, position, attribution, hedging, sentiment, sources.

02Multi-Vertical Benchmark

Cada vertical possui sua própria coorte de 15+ entidades monitoradas nas mesmas queries. Comparação cross-vertical de padrões de citação. Essencial para significância estatística.

03SERP vs AI Overlap

Jaccard index semanal entre top 10 Google e fontes citadas pelos LLMs. Prova que GEO e diferente de SEO.

04Intervention Tracker

Framework A/B testing. Registra intervenções (Schema.org, llms.txt) e mede impacto na citação com Fisher exact test.

05Context Analyzer

Analisa COMO a entidade e citada: sentimento, atribuição, precisão factual, detecção de alucinações. 30+ padrões regex.

06Statistical Analysis

Chi-squared, t-test, ANOVA, regressão logística, Bonferroni. Effect sizes: Cohen-d, Cramer-V, eta-squared. Publication-ready.

07FinOps Monitor

Tokens reais da API (nunca estimativas). Circuit breaker, anomaly detection, alertas por email, dashboard auto-gerado.

FRAMEWORK MULTI-VERTICAL

4 verticais, 61 entidades reais, cobertura setorial empírica

Cada vertical possui sua própria coorte de entidades monitoradas simultaneamente em 4 LLMs. Execução sequencial por vertical para manter o orçamento dentro do limite FinOps. Cada card mostra a taxa de citação real medida.

Fintech

16 entidades

36.8% taxa real·4400 queries·1620 citadas

NubankItaúStoneCieloPagBankC6 BankBanco InterBradescoMercado PagoPicPayAme DigitalNeonOriginalBS2SafraBanco Carrefour

Varejo

15 entidades

33.5% taxa real·4400 queries·1475 citadas

Magazine LuizaCasas BahiaMercado LivreAmazon BrasilShopee BrasilAmericanasCarrefourPão de AçúcarRennerRiachueloC&A BrasilHavanLeroy MerlinNetshoesDafiti

Saúde

15 entidades

23.4% taxa real·4379 queries·1024 citadas

DasaHapvidaUnimedFleuryRede D'OrEinsteinSírio-LibanêsMater DeiHermes PardiniSabinAmilSulAmérica SaúdePrevent SeniorHCorA.C. Camargo

Tecnologia

15 entidades

24.3% taxa real·4352 queries·1058 citadas

TivitTotvsStefaniniAccentureCI&TGlobantSoftplanLinxLocawebMovileiFood TechVtexRD StationInvolvesTempest Security

SNAPSHOT EMPÍRICO · 13 DE MAIO DE 2026

O que os dados mostram hoje

Resultados verificáveis contra papers.db (17.531 queries). Cada número abaixo pode ser reproduzido executando os scripts Python contra o mesmo banco.

Taxa de citação por LLM (ranking real)

★Perplexity

82.6%

Perplexity AI

1728 queries1428 citadas4.0s latência

Claude

35.5%

Anthropic

3899 queries1385 citadas3.9s latência

ChatGPT

27.4%

OpenAI

3968 queries1089 citadas6.3s latência

Groq

20.1%

Groq

3968 queries799 citadas1.9s latência

Gemini

12.0%

Google

3968 queries476 citadas27.5s latência

Top entidades citadas (Fintech)

Nubank

1101

Magazine Luiza

679

Mercado Livre

638

Americanas

332

EMS

307

PicPay

295

Totvs

292

Hypera Pharma

283

Qualidade da atribuição

Atribuição nomeada vs linkada

7801 nomeadas (100.0%) · 1 apenas linkadas

Posição na resposta (tercil)

43.0% aparecem no 1º tercil da resposta — posição privilegiada de leitura

Ver dashboard completo de Research →

ACESSO E LINKS

Entregáveis e relatórios

Todos os artefatos produzidos pelo projeto Papers estão acessíveis publicamente. O dashboard de pesquisa requer verificação por email para acesso.

Research DashboardWeb App

Dashboard interativo com gate de verificação por email. Acesso via código de 6 dígitos. Visualiza citações por LLM, ranking de entidades, série temporal e status FinOps para os 4 verticais.

alexandrecaramaschi.com/research

Papers RoadmapDocumentação

Esta página. Roadmap visual do projeto com status de cada fase, stack tecnológica detalhada, painel de especialistas e requisitos de publicação acadêmica.

alexandrecaramaschi.com/papers-roadmap

GitHub RepositoryOpen Source

Código-fonte open-source (MIT). 4.600+ linhas de Python, 7 módulos de coleta, API REST FastAPI com 17 endpoints, 3 workflows GitHub Actions automatizados.

github.com/alexandrebrt14-sys/papers

API REST (FastAPI)localhost:8000

FastAPI com 17 endpoints organizados em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps. Executar localmente: python -m src.cli serve --port 8000. Documentação Swagger em /docs.

FinOps DashboardAuto-gerado

Dashboard HTML auto-gerado após cada coleta em output/finops_dashboard.html. Gauge de gastos por provider, série temporal de custos, alertas ativos e status do circuit breaker.

ROADMAP DETALHADO

4 fases com critérios de aceitação

Cada tarefa tem status, tipo e critério mensurável. Estilo Microsoft 365 Roadmap.

EntregueEm progressoPlanejadoBloqueado

FASE 0Semana 1 — 8 tarefas

Desbloqueio — Concluído

Billing ativado, 5 LLMs operacionais, CI/CD validado, primeira coleta realizada

8/8

entregue

$0,80

custo dia 1

P0-01

Billing OpenAI ativado

Conta hevtau@gmail.com com billing ativo. Key papers-geo-research criada. gpt-4o-mini operacional.

Entregue

P0-02

Créditos Anthropic ($55)

US$ 55 adicionados via Visa 7643 (Receipt 2472-6741-3835). claude-haiku-4.5 operacional. Tier 2.

Entregue

P0-03

Billing Google Cloud (R$500) + Gemini 2.5 Flash

Cloud billing ativado (R$500 Virtuitau 7706). gemini-2.0-flash descontinuado (limit:0). Migrado para gemini-2.5-flash.

Entregue

P0-04

6 GitHub Secrets configurados

OPENAI_API_KEY, ANTHROPIC_API_KEY, GOOGLE_AI_API_KEY, PERPLEXITY_API_KEY configurados via API. Workflow permissions habilitadas.

Entregue

P0-05

Corrigir bug intervention add

cli.py:255 passava LLMConfig em vez de strings de query. Corrigido para STANDARD_QUERIES[:5].

Entregue

P0-06

Remover hardcoded path Windows

update-docs.py referenciava C:/Sandyboxclaude/Logss/ — falha no Ubuntu CI. Agora usa path relativo.

Entregue

P0-07

Primeira coleta completa (5 LLMs)

5 coletas em 2026-03-24: 406 respostas válidas, 6 citações (5,5%), 2 verticais (fintech + tecnologia). Custo: $0,80.

Entregue

P0-08

CI/CD operacional (13/13 steps OK)

daily-collect.yml testado 3x até sucesso. Workflow permissions corrigidas. Coleta + FinOps + docs + commit automáticos.

Entregue

FASE 1Semanas 2-3 — 20 tarefas — Concluída

Rigor Metodológico + Multi-Vertical

Sabatina com 16 fraquezas identificadas, 9 correções implementadas (3 críticas + 6 maiores). Coleta dual, word boundary, 4 verticais, 72 entidades, query routing inteligente. Context analyzer, intervention tracking, concurrency groups e limpeza de dependências.

F1-01

Coleta dual: resposta natural + análise post-hoc

Queries enviadas ao LLM sem system prompt forçado — captura resposta natural como um usuário real veria. Extração de entidades feita depois com regex word-boundary. Elimina viés de demanda que invalidava a medição anterior.

Entregue

F1-02

Word boundary matching + exclusão de ambíguos

Substituído substring matching por regex \b. Entidades ambíguas (Neon, Original, Inter, 99) agora exigem nome canônico completo (ex: 'Banco Inter' em vez de apenas 'Inter'). Elimina falsos positivos comprovados nos dados.

Entregue

F1-03

Perplexity classificada como engine RAG separada

Novo campo engine_type ('parametric' vs 'rag') no LLMResponse. Perplexity não entra em testes estatísticos comparativos com os outros 3 LLMs — paradigma diferente (busca web vs dados de treinamento).

Entregue

F1-04

Entidades fictícias para calibração de falsos positivos

8 entidades que não existem adicionadas (2 por vertical). Ex: 'Banco Floresta Digital', 'TechNova Solutions'. Qualquer detecção dessas entidades = taxa base de falso positivo do detector.

Entregue

F1-05

Coorte internacional para comparação cross-market

5 fintechs globais (Revolut, Monzo, N26, Chime, Wise) adicionadas ao coorte fintech. Permite medir se marcas brasileiras são menos citadas que equivalentes globais — dado inédito na literatura.

Entregue

F1-06

max_tokens aumentado para 800 (elimina viés de truncamento)

Respostas de 250 tokens favoreciam marcas grandes (primacy bias). Com 800 tokens, entidades menores que apareceriam em parágrafos posteriores agora são capturadas. Perplexity mantida em 500.

Entregue

F1-07

Model pinning + preservação de resposta completa

OpenAI pinado em gpt-4o-mini-2024-07-18 para reprodutibilidade. Campo raw_text preserva resposta integral antes de truncamento. Outro pesquisador consegue replicar com o mesmo modelo.

Entregue

F1-08

FDR Benjamini-Hochberg + correção do Cohen's d

Correção para múltiplas comparações via FDR (menos conservador que Bonferroni). Desvio padrão corrigido para amostral (ddof=1). Padrão ouro para publicação em KDD/SIGIR.

Entregue

F1-09

Queries corrigidas — removidas referências a GEO/SEO

As queries comuns eram sobre 'GEO', 'schema markup', 'llms.txt' — contaminação do projeto brasilgeo.ai. Substituídas por queries sobre reputação, inovação e transformação digital de empresas brasileiras.

Entregue

F1-10

Seleção de vertical na CLI (--vertical flag)

Flag --vertical aceita fintech, varejo, saúde, tecnologia ou all. Cada vertical carrega coorte próprio e queries adaptadas ao setor. Coleta diária roda todas as 4 verticais em sequência.

Entregue

F1-11

4 verticais com 64 entidades + 8 fictícias

Fintech (14+5 internacionais+2 fictícias), Varejo (14+2), Saúde (14+2), Tecnologia (14+2). Queries 50% PT-BR / 50% EN para validade ecológica. Sem anos nas queries para evitar recency bias.

Entregue

F1-12

Circuit breaker + rate limiting por provider

Gemini: 4s entre queries (15 RPM exato, zero erros 429). Perplexity: query routing inteligente — só recebe categorias descoberta/comparativo (57% menos custo). Custo/rodada: $0,18 para $0,12.

Entregue

F1-13

CitationContextAnalyzer integrado no pipeline

Módulo de análise de contexto de citação integrado no pipeline de coleta. Analisa sentimento, atribuição, precisão factual e hedging de cada citação detectada. 30+ padrões regex para classificação automática.

Entregue

F1-14

insert_interventions() no DatabaseClient

Método insert_interventions() implementado no DatabaseClient para registrar intervenções A/B (Schema.org, llms.txt) com timestamp, tipo e entidade-alvo. Suporte a queries de antes/depois para Fisher exact test.

Entregue

F1-15

check_interventions() automático

Verificação automática de intervenções ativas em cada ciclo de coleta. Compara taxa de citação pré/pós intervenção e calcula significância estatística com Fisher exact test.

Entregue

F1-16

CLI analyze visualize

Comando 'python -m src.cli analyze visualize' adicionado à CLI. Gera gráficos de citação por LLM, série temporal e heatmap de entidades em PNG 300 DPI para publicação acadêmica.

Entregue

F1-17

check_anthropic_balance() corrigido

Correção do endpoint de verificação de saldo Anthropic. O endpoint /v1/messages/batches era incorreto — substituído por chamada mínima a /v1/messages com max_tokens=1 para validar key sem consumir créditos significativos.

Entregue

F1-18

Concurrency groups nos 3 workflows

Adicionados concurrency groups nos 3 workflows GitHub Actions (daily-collect, weekly-benchmark, finops-monitor) para evitar race conditions no banco SQLite e nos artifacts compartilhados.

Entregue

F1-19

4 dependências mortas removidas

Remoção de 4 dependências não utilizadas do requirements.txt: pacotes que haviam sido adicionados durante prototipagem mas não eram mais importados em nenhum módulo. Redução do tempo de install no CI.

Entregue

F1-20

Pricing alinhado com tabelas atuais

Tabela de preços dos 4 providers atualizada para valores de março/2026. Corrigido pricing do Gemini (gemini-2.5-flash) e Perplexity (sonar). Impacto direto na precisão dos relatórios FinOps.

Entregue

FASE 2Semanas 3-4 — 12 tarefas

Qualidade, Resiliência e Web

API REST FastAPI, dashboard React, sync Supabase, gate de email, publicação online. Testes e CI/CD em progresso.

F2-01

Planejado10+

Testes db/client.py

10+ testes com DB in-memory para insert, query, export CSV

F2-02

Planejado12+

Testes finops/tracker.py

Record, budget enforcement, circuit breaker, anomaly detection com mocks

F2-03

Planejado8+

Testes finops/monitor.py

Rollup, stale data detection, pricing validation, checkpoint export

F2-04

Planejado6+

Testes finops/secrets.py

mask_key, fingerprint SHA-256, scan_git_for_leaks, key rotation

F2-05

Planejado5+

Testes persistence/timeseries.py

save_aggregate, get_time_series, compute_daily, data_health

F2-06

Planejado8+

Testes collectors/base.py

LLMClient com mocks httpx (respx), token extraction, cost calculation

F2-07

Planejadoimpl

Retry com backoff exponencial

3 tentativas (2s, 5s, 10s) com jitter. Não retenta 401/403. Log cada retry.

F2-08

PlanejadoCI

Workflow pytest.yml

Testes automáticos em cada push/PR. Fail-fast. Coverage como artifact.

F2-09

PlanejadoCI

Workflow ruff lint

Lint automático com ruff. Bloqueia merge se houver violações.

F2-10

PlanejadoCI

Type checking mypy

Verificação de tipos em src/. Zero erros para merge.

F2-11

Planejado16+

Testes parametrizados por vertical

pytest.mark.parametrize com 4 verticais. Valida coorte, queries e schema por setor.

F2-12

EntregueAPI

API REST (FastAPI) com 17 endpoints

17 endpoints em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps. Background tasks para coleta sob demanda. Auth via X-API-Key. CORS habilitado. Swagger em /docs.

F2-13

EntregueUI

Dashboard HTML self-contained

Frontend dark-theme com seletor de verticais, KPIs dinâmicos, barras de citação por LLM, ranking de entidades sortável, série temporal SVG com sparklines.

F2-14

Entreguedata

Sync SQLite para Supabase

Script sync_to_supabase.py sincroniza dados agregados diariamente para Supabase PostgreSQL via REST API. Step automático no GitHub Actions após cada coleta.

F2-15

Entregueauth

Gate de verificação por email

Acesso ao dashboard via código de 6 dígitos enviado por email (Resend API). JWT cookie HttpOnly com validade de 7 dias. Rate limiting integrado.

F2-16

Entregueweb

Dashboard React em /research

Página Next.js com React Server Components + metadata SEO. Seletor de 4 verticais, KPIs dinâmicos, barras de citação por LLM, tabela de ranking sortável, sparkline SVG. Design system Salesforce/Lucida.

F2-17

Entreguedeploy

Publicação em alexandrecaramaschi.com/research

Dashboard acessível via bypass do gate de email enquanto o domínio Resend é verificado em produção. Deploy automático via Vercel.

F2-18

Entreguev1.1

geo-finops: tracking unificado de 4 projetos

Pacote standalone que substitui 4 trackers paralelos (orchestrator JSONL, papers SQLite, curso-factory JSON, caramaschi) por SQLite local + sync diário Supabase. Migrou 1.469 calls historicas. Schema único, dedup garantido, retry exponencial. Endpoint live em /api/finops/llm-usage (ISR 1h). 13/13 health checks ponta-a-ponta. Repo: github.com/alexandrebrt14-sys/geo-finops

F2-19

Entreguestats

Bootstrap BCa + Beta-binomial + Fisher fallback

StatisticalAnalyzer ganhou bootstrap_ci_bca (Efron 1987 com correção de viés z0 e aceleração via jackknife), beta_binomial_ci (CI bayesiano conjugado, robusto a N pequeno e k=0/k=n) e fallback automático para Fisher exact no chi² quando min(expected)<5. 25 testes pytest passando.

F2-20

Entreguestats

Cohen's e Fleiss' kappa (inter-rater reliability)

Concordância entre raters/engines corrigida por chance (Landis & Koch 1977). cohen_kappa para 2 raters, fleiss_kappa para N raters. Reportado como inter_llm_fleiss_kappa quando o painel é retangular. Substitui agreement bruto que inflacionava em classes desbalanceadas.

F2-21

Entreguestats

Brier score + reliability diagram

Decomposição de Murphy (1973): BS = reliability - resolution + uncertainty. Reliability diagram com 10 bins. Alimenta diretamente o pipeline de calibração do GEO Score Checker (mede se P(citado) prevista bate com a observada).

F2-22

Entregueschema

Coluna model_version em citations

Migration aditiva para rastreio de non-stationarity dos LLMs ('gpt-4o-mini' em jan ≠ 'gpt-4o-mini' em jun). Permite painel longitudinal válido. Insert padrão usa fallback model_version = model. Index criado.

F2-23

Entregueschema

Bridge Papers ↔ GEO Score Checker

Tabela score_calibration_inputs (D1..D8 + k_cited/n_observations + score_model_version) une features do Score Checker com ground truth empírico de Papers. Schema com CHECK constraints, índices por domain/vertical/collected_at. Foundation da calibração.

F2-24

Entreguecalib

scripts/calibrate_score.py — pesos calibrados

Pipeline end-to-end: load → expand para Bernoulli → fit Logit (statsmodels) → AUROC + Brier sob 5-fold CV (Mann-Whitney sem sklearn) → reliability diagram → delta de pesos atual vs calibrado. Modo --simulate N para demo. Em n=200 sintético: AUROC 0.81, Brier 0.037, Spearman 0.95.

F2-25

Entregueui

GEO Score Checker: inference.ts (TS puro)

Primitivas estatísticas em TypeScript sem dependência: cohenKappa, fleissKappa, bootstrapBcaCI (Efron 1987 com Mulberry32 PRNG seedável), normalCdf/Ppf via Acklam, reliabilityDiagram. 15 testes vitest passando. Habilita rigor matemático no dashboard.

F2-26

Entregueui

Fleiss kappa no Answer Bubble Divergence

calculateBubbleDivergence agora retorna kappa + interpretation Landis-Koch ao lado de score/severity. Cada campo livre (name/category/proposition) é convertido para shingle canônico (bigramas truncados) antes de virar rótulo nominal. Penaliza concordância trivial em classes desbalanceadas.

F2-27

Entregueui

computeFinalScoreWithCI — score com IC BCa

Variante de computeFinalScore que aceita B≥5 réplicas estocásticas do vetor de dimensões e devolve {point, ci} via bootstrap BCa. Usuário final passa a ver 'Score = 74 [69, 78]' em vez de 74 cravado. Quando B<5, retorna ci=null.

FASE 3Semanas 4-12 — 8 marcos

Dados e Análise

90 dias de coleta contínua em 4 verticais, 2 experimentos A/B, datasets reprodutíveis por setor

F3-01

30 dias de coleta por vertical

~288 queries/dia (18 x 5 LLMs x 4 verticais). Total esperado: 8.640 observações em 30 dias. Coleta diária automatizada via GitHub Actions às 06:00 BRT. Dia 1 completo (2026-03-24): 406 respostas em fintech + tecnologia.

8.640 obs

F3-02

Primeiro experimento A/B (Schema.org)

Intervenção: adicionar JSON-LD em página-alvo. Medição: citação antes/depois em janelas de 7, 14, 30 dias. Fisher exact test.

>100 med

F3-03

4.000 citações acumuladas (cross-vertical)

Tamanho amostral mínimo para testes com poder >0.8 por vertical. Distribuição esperada: ~1.000 por vertical, ~250 por LLM por vertical.

4.000 cit

F3-04

Primeiro resultado com significância cross-vertical

Chi-squared entre LLMs por vertical, ANOVA multi-grupo cross-vertical. Effect sizes reportados. Comparação de padrões entre Fintech, Varejo, Saúde e Tecnologia.

p < 0.05

F3-05

Dataset CSV reprodutível por vertical

citations_fintech.csv, citations_varejo.csv, citations_saude.csv, citations_tecnologia.csv + agregados. Formato compatível com R, SPSS, pandas.

8+ CSVs

F3-06

90 dias de coleta contínua (4 verticais)

~25.920 observações totais (288/dia x 90 dias). Com respostas de 800 tokens em modo natural (não JSON forçado). Suficiente para tendência e sazonalidade.

25.920 obs

F3-07

Segundo experimento A/B (llms.txt)

Medir se llms.txt aumenta citação. Design crossover se possível. Fisher exact + odds ratios.

>100 med

F3-08

Análise de divergência SERP vs IA por vertical

12+ semanas de Jaccard index semanal por vertical. Prova empírica de que GEO é diferente de SEO e que padrões variam entre setores.

12 sem

FASE 3.5Maio–Junho 2026 — Maturação Metodológica

Calibração + Modelagem Hierárquica + IRT + Causalidade

Próximos saltos matemáticos depois da entrega da bridge Papers ↔ GEO Score Checker (08/04/2026)

F35-01

Coleta real (D1..D8 + k/n) para 50+ sites em score_calibration_inputs

Substituir o modo --simulate por dataset empírico. Para cada site da coorte, rodar o GEO Score Checker (D1..D8) e cruzar com a taxa empírica de citação observada nos paineis Papers da mesma vertical. Mínimo: 50 sites por vertical para evitar overfit.

200+ rows

F35-02

GLMM (mixed-effects) com random effect por domínio + vertical

Substituir Logit independente por logística hierárquica via statsmodels.BinomialBayesMixedGLM (ou pymer4 / brms). Resolve dependência intra-site e calcula shrinkage Stein-James para verticais com poucos dados.

GLMM

F35-03

Análise fatorial confirmatória das 8 dimensões

EFA + rotação varimax e análise paralela de Horn para testar se as 8 dimensões são realmente 8 ou colapsam em 3-4 fatores latentes (higiene técnica + reputação semântica + estabilidade narrativa). Substitui pesos lineares por meta-fatores.

8→3-4 dim

F35-04

IRT 2-PL: cada dimensão como item, site como respondente

Modelo Birnbaum 2-PL com parâmetros a (discriminação) e b (dificuldade). Identifica dimensões ruidosas (a baixo) e inalcançáveis (b alto). Substitui o score linear por estimativa EAP com erro-padrão por site.

IRT 2PL

F35-05

Bootstrap BCa do Score em produção (4+ réplicas LLM por dimensão)

computeFinalScoreWithCI já está implementado em score-calculator.ts. Próximo passo: rodar 4 chamadas independentes a cada LLM em Generation Exposure e Faithful Credit, alimentar o vetor B≥4 e exibir 'Score = 74 [69, 78]' no dashboard em vez de 74 cravado.

BCa CI live

F35-06

BSTS / CausalImpact para a 9ª dimensão Causal Impact

Modelagem Bayesiana de série temporal estrutural (Brodersen et al. 2015) sobre a citation_rate por dia por site. Atribuição causal de intervenções (publicação de schema, llms.txt) com posterior bayesiano para Δ. Pacote: tfp.experimental.sts.CausalImpact.

Δ posterior

F35-07

Stage-aware weights (lead-gen vs e-commerce vs SaaS)

Modelos GLMM separados por estágio do funil. Verticais respondem diferente: Saúde valoriza Faithful Credit, Varejo valoriza Generation Exposure. Cada estágio recebe seu próprio vetor de pesos calibrados.

3 stages

F35-08

Pre-registro público no OSF + congelamento confirmatório

Move o projeto Papers de exploratório para confirmatório. Hipóteses, métricas primárias/secundárias, plano de análise estatística e poder mínimo registrados antes de coletar mais dados. Bonferroni passa a ser obrigatório (não BH).

OSF

FASE 4Semanas 12-20

Publicação Acadêmica

1 preprint ArXiv (multi-vertical) + 2 submissões a conferências tier-1 e journals

ArXiv

How LLMs Cite Entities Across Industry Verticals

Estudo multi-vertical de visibilidade em busca generativa

Como 5 LLMs citam 61 entidades em 4 setores (Fintech, Varejo, Saúde, Tecnologia) ao longo de 90+ dias. Taxa de citação, posição, sentimento e atribuição por vertical. Primeiro dataset público de citation tracking multi-vertical em LLMs.

SIGIR / WWW

GEO vs SEO: Source Divergence

Evidência empírica de divergência em busca por IA

Jaccard index semanal entre Google SERP e fontes de LLMs. Quantifica a divergência que justifica GEO como disciplina distinta de SEO. 12+ semanas de dados comparativos por vertical.

Information Sciences

Industry-Specific Patterns in AI Citation: Banking, Retail, Healthcare, and Technology

Padrões setoriais de citação por LLMs no mercado brasileiro

Análise comparativa de como LLMs citam entidades em 4 setores distintos. Resultados de 2 experimentos A/B controlados, Fisher exact test, odds ratios e IC 95%. Framework prático para profissionais de cada vertical.

REBOOT ALGORÍTMICO · 23/04/2026

v2.0.0-reboot — Reimplementação pós Paper 4

O Paper 4 — "Three Ways to Fail to Conclude: A Null-Triad in GEO Research" — demonstrou que a metodologia v1 sofria de três modos de falha: H1 underpower RAG, H2 design-null (probe fictício desligado) e H3 instrumentação assimétrica. O reboot v2 corrige os três e reconstrói o pipeline para submissão a Elsevier.

10 IMPLEMENTAÇÕES CANÔNICAS78/78 testes passando · 3 commits (deea1bb + 680240f + 93cea8b)

01NER v2 — NFC + NFKD dual-pass

Word-boundary rigoroso, aliases e stop-contexts. Dry-run em 2.000 linhas: −45% de falsos positivos (v1 cited=1.409 → v2 cited=776).

02Cluster-robust CR1 sandwich

Estimador CR1 para diferença de proporções entre grupos que compartilham clusters (dias de coleta).

03Monte Carlo null simulation

Substitui o threshold Jaccard arbitrário de 0.30 pelo P5 empírico sob H0 de uniformidade. Threshold vira dado, não opinião.

04Power analysis operacional

Rule-of-3 inverso (H2), Cohen's h (H1/H4), design effect (H5). Gera roadmap de dias-até-target-power por hipótese.

05GLMM (mixed-effects logit)

statsmodels BinomialBayesMixedGLM com random intercepts aninhados (query, day, entity). Resolve dependência intra-cluster.

06Cohort v2 — 128 entidades

80 BR reais + 32 anchors internacionais + 16 decoys fictícios (4 verticais × 4). Anchors permitem cross-vertical comparison.

07Query battery v2 — 192 queries

Balanceadas 50/50 PT/EN e 50/50 directive/exploratory. 4 verticais × 6 categorias × 2 línguas × 2 tipos × 2 temporal.

08Hypothesis engine canônico

BH-FDR automático e decision rule pré-registrada: rejeitar H0 se e somente se p-ajustado BH < 0,05 E IC 95% exclui o nulo.

09Reprodutibilidade Docker-first

Dockerfile com PYTHONHASHSEED=20260424, requirements-lock.txt pinado, scripts/reproduce.sh regenera tabelas via git tag com SHA-256 manifest.

1078/78 testes passing

entity_extraction (24) · cluster_robust (6) · null_simulation (8) · power_analysis (10) · config_v2 (16) · hypothesis_engine (14).

CHANGELOG.md docs/METHODOLOGY_V2.md github.com/alexandrebrt14-sys/papers Zenodo DOI 10.5281/zenodo.19712217

PAPER 4Entregue

Three Ways to Fail to Conclude: A Null-Triad in GEO Research

Draft v1 — 6.664 palavras, 35 seções

Meta-paper que diagnostica os três modos de falha metodológica da v1 e estabelece o caso para o reboot v2. Submetido ao SSRN, publicado no Zenodo em 23/04/2026. Pipeline de submissão: SSRN → arXiv → SIGIR 2027.

Status: submetido ao SSRN + Zenodo published
DOI Zenodo: 10.5281/zenodo.19712217
Companion: SSRN 10.2139/ssrn.6460680
Pendente: OSF preregistration em 24/04

PAPER 5Em progressoTARGET ELSEVIER

Estudo confirmatório multi-vertical sobre a infraestrutura v2

Alvo: Information Sciences (Elsevier, IF 8.1)

Primeiro paper confirmatório da era v2. Coleta de 90 dias sobre a infraestrutura reconstruída, dataset Zenodo dedicado, decision rule pré-registrada, 200 linhas anotadas por humano para Cohen's κ inter-rater e scaling observations trimestrais.

Status: infraestrutura v2 pronta, aguardando OSF preregistration v2
Timeline: OSF prereg → coleta 90d → análise → submissão Elsevier
Mudanças canônicas em relação à v1:

Dataset Zenodo com papers.db + CITATION.cff + schema.sql
200 linhas anotadas humano para κ inter-rater
Prompt sensitivity cron mensal (gap Bengio)
Scaling observations trimestral (Gemini Flash + GPT-4o full + Claude Sonnet)

RIGOR METODOLÓGICO

Recomendações de painel de especialistas

Simulamos uma revisão pelo nível de exigência de Yoshua Bengio, Geoffrey Hinton, Yann LeCun, Andrej Karpathy, Aidan Gomez e Jared Kaplan. Cada crítica gerou uma correção implementada no código.

Geoffrey Hinton

“LLMs são tratados como caixas pretas idênticas”

Implementado

Coleta dual — JSON estruturado + linguagem natural

Quando pedimos ao LLM 'liste quem você citaria' (JSON mode), ele faz introspecção metacognitiva — reporta o que ACHA que faria. Quando pedimos uma resposta em linguagem natural, ele cita orgânicamente. O novo dual_collector.py coleta AMBAS as respostas para a mesma query e mede a discrepância via índice de Jaccard. Isso revela se o LLM é um bom preditor do próprio comportamento — um dado inédito na literatura.

Aidan Gomez

“Não distingue RAG de conhecimento paramétrico”

Implementado

Classificação parametric vs retrieval + verificação de URLs

Perplexity busca na web em tempo real (RAG) — uma mudança de conteúdo pode aparecer em horas. ChatGPT usa conhecimento do treinamento (paramétrico) — levaria meses. O sistema agora classifica cada citação como 'parametric' ou 'retrieval'. Além disso, o url_verifier.py faz HTTP HEAD em cada URL retornada para separar citações reais de alucinações. Descobrimos que modelos paramétricos alucinam URLs em até 40% dos casos.

Yoshua Bengio

“Sem análise de sensibilidade ao prompt”

Implementado

11 variantes parafraseadas com medição de concordância

Se a query 'What is Nubank?' retorna citação mas 'Tell me about the company Nubank' não retorna, o resultado é frágil — específico daquela formulação exata. O prompt_sensitivity.py testa variantes parafraseadas, reformuladas e traduzidas da mesma pergunta e mede a taxa de concordância. Se a concordância for baixa, os resultados não são generalizáveis e isso precisa ser reportado no paper.

Andrej Karpathy

“ANOVA implementada incorretamente + dados ordinais com t-test”

Implementado

ANOVA between-groups com teste de Levene + Mann-Whitney para posição

O código original chamava a função 'anova_repeated_measures' mas usava f_oneway — que é para medidas INDEPENDENTES. As mesmas queries em múltiplos LLMs são medidas repetidas. Corrigimos o nome e adicionamos verificação automática de homocedasticidade (teste de Levene). Se as variâncias não forem homogêneas, o sistema usa automaticamente Kruskal-Wallis. Para dados de posição (ordinal: 1, 2, 3), adicionamos Mann-Whitney U em vez de t-test.

Geoffrey Hinton + Andrej Karpathy

“Modelos são atualizados silenciosamente durante o estudo”

Implementado

Detecção automática de drift com hashing de respostas

O aliás 'gpt-4o-mini' pode apontar para modelos diferentes ao longo de 6 meses sem aviso. O drift_detector.py registra a versão real retornada pela API (ex: gpt-4o-mini-2024-07-18) e faz hash SHA-256 de respostas a queries canônicas. Se o hash muda mas a versão não, detectamos uma atualização comportamental silenciosa — dado crucial para interpretar mudanças na taxa de citação.

Jared Kaplan

“Sem análise de scaling — apenas modelos baratos”

Planejado

Comparação semanal com modelos maiores (gpt-4o, sonnet)

Se a taxa de citação aumenta com o tamanho do modelo, isso sugere que entidades mais presentes no corpus de treinamento são citadas mais por modelos maiores (scaling law para citação). A tabela scaling_observations armazena dados de modelos pequenos vs grandes para a mesma query. Se houver relação log-linear, é uma contribuição inédita ao campo.

Yann LeCun

“Análise de sentimento com regex é primitiva”

Planejado

Validação com anotação humana + Cohen's kappa

16 padrões regex para classificar sentimento não têm fundamentação empírica. A recomendação é anotar manualmente 200 respostas, calcular Cohen's kappa entre o classificador automático e o humano, e reportar precision/recall por categoria. Sem isso, nenhum journal sério aceitará afirmações sobre sentimento das citações.

OBJETIVO FINAL

Publicação acadêmica peer-reviewed

O objetivo central do projeto Papers e gerar dados empíricos que sustentem artigos científicos aceitos em conferências tier-1 e journals de Information Retrieval. Cada venue tem regras rígidas que o sistema precisa atender nativamente.

SIGIR 2026

Conferencia ACM — Melbourne, Australia — 20-24 Jul 2026

Site oficial

Impacto

Top-1 em Information Retrieval

Formato

ACM sigconf (LaTeX). Full papers: 9 páginas + referências ilimitadas. Short papers: 4 páginas.

Regras rígidas de aceitação

Submissão anonimizada (double-blind) — sem nome de autor, sem auto-citações identificaveis
Trabalho original não publicado em nenhum outro venue com proceedings
Preprints no ArXiv são permitidos (não conta como publicação previa)
Reproducibilidade: datasets e código devem ser disponibilizados ou descritos em detalhe suficiente
Avaliação empírica robusta com baselines comparativas e testes de significância estatística

O que o Papers precisa gerar

90+ dias de dados, chi-squared entre LLMs, grupo de controle, dataset CSV público. O Papers gera tudo isso automaticamente.

WSDM 2026

Conferencia ACM — Boise, Idaho, EUA — 22-26 Fev 2026

Site oficial

Impacto

Top-3 em Web Search and Data Mining

Formato

ACM sigconf anonymous review. Full papers: 9 páginas. Short papers (novo em 2026): 4 páginas.

Regras rígidas de aceitação

Submissão anônima obrigatória — documentclass [sigconf,anonymous,review]{acmart}
Submissões concorrentes a outros venues NÃO são permitidas
Papers publicados em journals ou conferências com proceedings são proibidos
Preprints no ArXiv são explicitamente permitidos pelo WSDM 2026
Contribuicao deve ser substancial: novos modelos, algoritmos ou insights empíricos

O que o Papers precisa gerar

Análise de divergência SERP vs IA (Jaccard index) com 12+ semanas de dados. SERP overlap tracker do Papers fornece esses dados semanalmente.

ACM TOIS

Journal ACM — Rolling submission (sem deadline fixa)

Site oficial

Impacto

Top journal em Information Retrieval (h-index: 89)

Formato

ACM LaTeX template. Sem limite rigido de páginas (tipicamente 30-40 páginas para full papers).

Regras rígidas de aceitação

Pelo menos 50% do conteúdo deve ser material não publicado previamente
Revisão por Associate Editor + mínimo 2 peer reviewers
Cobertura de related work OBRIGATÓRIA: deve citar trabalhos recentes de TOIS, SIGIR, WSDM, CIKM, WWW
Validação empírica sólida com datasets descritos em detalhe
Formalizacao de novos modelos ou métodos com fundamentação teorica

O que o Papers precisa gerar

Paper extenso com fundamentação teorica + 6 meses de dados. O framework de 10 camadas do Papers oferece a base teorica; os dados empíricos vem da coleta automatizada.

Information Sciences (Elsevier)

Journal Elsevier — Rolling submission | Impact Factor: 8.1

Site oficial

Impacto

Q1 em Computer Science / Information Systems

Formato

Elsevier article template. Sem limite rigido de páginas. APC: $3.040 USD.

Regras rígidas de aceitação

Pesquisa original, inovadora e criativa — não aceita contribuicoes incrementais
Refereed: revisão por pares com 2-3 reviewers
Deve servir pesquisadores, desenvolvedores, gestores e estudantes de pos-graduacao
Foco em knowledge engineering, intelligent systems e state-of-the-art
Publicação open access disponível (Article Publishing Charge de $3.040)

O que o Papers precisa gerar

Resultados dos 2 experimentos A/B (Schema.org e llms.txt) com Fisher exact test, odds ratios e IC 95%. O intervention tracker do Papers gera esses dados.

JASIST (Wiley)

Journal ASIS&T — Rolling submission | Single-blind review

Site oficial

Impacto

Referência em Information Science (h-index: 123)

Formato

APA Style com espacamento 1.5. Research articles: 6.000-8.000 palavras (max 7.000 excluindo abstract, keywords e referências).

Regras rígidas de aceitação

Foco na intersecao de informação, sistemas e como as pessoas os utilizam
Abstract informativo obrigatório: máximo 200 palavras
Revisão single-blind: editor-in-chief + review editor + mínimo 2 peer reviewers
Manuscrito em ingles com convencoes formais acadêmicas (APA Style)
Submissão via ScholarOne Manuscripts

O que o Papers precisa gerar

Estudo de como LLMs citam entidades (citation tracker) com análise de sentimento e atribuição (context analyzer). Foco em human-information interaction com IA generativa.

ArXiv (Preprint)

Repositório de preprints — Publicação em 1-3 dias úteis

Site oficial

Impacto

Visibilidade imediata na comunidade científica

Formato

LaTeX (preferido) ou PDF. Figuras: .pdf, .jpg, .png (PDFLaTeX) ou .ps, .eps (LaTeX).

Regras rígidas de aceitação

Desde Nov 2025: ArXiv NÃO aceita mais review articles e position papers em CS sem peer review previo
Desde Fev 2026: Todas as submissões devem ter versão completa em ingles
Moderacao: material deve ser apropriado, tópico e não plagiado
Nomes de arquivo sem caracteres especiais (espacos, asteriscos causam rejeicao)
Papers originais com contribuição empírica são aceitos sem peer review previo

O que o Papers precisa gerar

Paper em ingles com dados empíricos originais. O Papers gera datasets exportaveis em CSV + graficos 300 DPI prontos para LaTeX. Submissão rápida para estabelecer prioridade.

FINOPS

Governança financeira automatizada

Cada chamada de API é rastreada com contagem real de tokens extraída da resposta. Com 4 verticais e 18 queries por vertical, o volume é de ~288 chamadas/dia (72 queries x 5 LLMs). Custo real medido: $0,12/rodada ($3,60/mês). Orçamento global de $35/mês com hard stop automático, circuit breaker por provider, rate limiting (Gemini 4s/query) e alertas por email.

Plataforma	Modelo	Input/1M	Output/1M	Mensal	Diário	Alerta	Hard Stop
OpenAI	gpt-4o-mini	$0.15	$0.60	$10	$1.00	70%	95%
Anthropic	claude-haiku-4.5	$0.80	$4.00	$10	$1.00	70%	95%
Google	gemini-2.5-flash	$0.15	$0.60	$5	$0.50	80%	100%
Perplexity	sonar	$1.00	$1.00	$10	$1.00	70%	95%
GLOBAL	—	—	—	$35	$3.50	70%	95%

Tokens reais

Extrai prompt_tokens e completion_tokens diretamente de cada resposta de API. Zero estimativas.

Circuit breaker

Spike >$2/hora abre circuito por 30 min. Protege contra loops de erro ou queries caras.

Anomaly detection

Alerta se query individual >$0.50 ou gasto horario anormal. Dedup de 6 horas.

Security audit

Scan de vazamentos no Git, validação de health das keys, detecção de rotacao. A cada 6h.

STACK TECNOLÓGICA DETALHADA

6 camadas, cada escolha com justificativa técnica

Da coleta de dados ao deploy em produção: tecnologias selecionadas para reprodutibilidade acadêmica, custo mínimo e operação autônoma via CI/CD.

Coleta de Dados (Backend Python)

Python 3.11 + httpx — Cliente HTTP direto para 4 APIs de LLM sem SDKs pesados
ResponseCache com SHA-256 — Cache local de 20h por chave (vertical + LLM + query) evitando recoleta
Circuit breaker — Proteção automática contra rate limiting (429). Após 2 retries, pula o LLM e continua
7 módulos: Citation Tracker, Cohort Benchmark, SERP Overlap, Intervention Tracker, Context Analyzer, Statistical Analysis, FinOps Monitor

API REST (FastAPI)

17 endpoints organizados em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps
Background tasks para coleta sob demanda e geração de relatórios
Auth via API key (header X-API-Key)
CORS habilitado para frontend Next.js
Documentação automática via Swagger em /docs

Frontend Web (Next.js)

Página /research com React Server Components + metadata SEO
Gate de verificação por email: código 6 dígitos via Resend, JWT cookie HttpOnly (7 dias)
Dashboard React com seletor de 4 verticais, KPIs dinâmicos, barras de citação por LLM, tabela de ranking sortável, sparkline SVG
Design system Salesforce/Lucida consistente com o site principal

Persistência

SQLite WAL mode — banco local para coleta diária (~252 registros/dia, 4 verticais)
Supabase PostgreSQL — dados agregados para o dashboard web
Sync automático: GitHub Actions roda sync_to_supabase.py após cada coleta

CI/CD e Automação

GitHub Actions: coleta diária 06:00 BRT (matrix strategy, 4 verticais sequenciais)
GitHub Actions: benchmark semanal domingo 08:00 BRT
GitHub Actions: FinOps monitor a cada 6h
Concurrency groups para evitar race conditions
Vercel auto-deploy para o site pessoal

Governança de Custos (FinOps)

Budget $35/mês global com alertas em 70%, 90%, 100%
Tokens reais extraídos de cada resposta (zero estimativas)
Circuit breaker: spike >$2/hora abre circuito por 30min
Dashboard HTML auto-gerado com gauge de gastos
Custo estimado: ~$0.12/dia ($3.60/mês) para 4 verticais

Escolhas técnicas detalhadas

Cada tecnologia com justificativa e alternativas descartadas.

HTTP Client

httpx >= 0.27

Quando e usada

Toda chamada a API de LLM (coleta diaria e semanal)

Por que foi escolhida

Suporte nativo a HTTP/2, timeouts granulares, async-ready. Permite controle total do request (headers customizados para cada provider, retry manual com backoff). Menor footprint que SDKs oficiais.

Alternativas descartadas

openai SDK, anthropic SDK, google-genai SDK — cada um adiciona 50-100MB de dependências, formatos de resposta diferentes, e abstraem detalhes de billing que precisamos para FinOps. httpx puro nos da acesso direto ao JSON raw da resposta incluindo usage.prompt_tokens e usage.completion_tokens.

Persistencia

SQLite (via sqlite3) Built-in Python 3.11+

Quando e usada

Armazenamento de todos os dados: citações, benchmarks, FinOps, alertas, rollups. Usado em cada coleta e em cada ciclo de monitoramento.

Por que foi escolhida

Zero infraestrutura externa — funciona localmente e no GitHub Actions sem servidor de banco. WAL mode para leitura concorrente. Banco único que viaja como artifact entre runs do CI. Ideal para datasets de pesquisa: um arquivo .db auto-contido que pode ser compartilhado com revisores.

Alternativas descartadas

PostgreSQL (requer servidor), Supabase (latência de rede, custo, depende de serviço externo), DuckDB (otimo para analytics mas overkill para insert-heavy workloads de 220 queries/dia). SQLite escala até ~1M rows sem degradação — nosso alvo de 20K rows em 90 dias e confortavel.

Análise Estatística

scipy + statsmodels >= 1.13, >= 0.14

Quando e usada

Relatório semanal de análise (weekly-benchmark.yml). Também disponível sob demanda via CLI.

Por que foi escolhida

scipy fornece chi-squared, t-test, ANOVA, Fisher exact — testes fundamentais para pesquisa de citação. statsmodels adiciona regressão logística com odds ratios e intervalos de confiança, essencial para papers que analisam preditores binários (citou/não citou). Ambas são referência em publicações acadêmicas — revisores esperam ver essas bibliotecas.

Alternativas descartadas

scikit-learn (mais para ML do que inferencia estatística), pingouin (API mais simples mas menos adotado em literatura), R/tidyverse (excelente mas adiciona linguagem extra ao projeto — preferimos stack uniforme em Python para reprodutibilidade).

Visualização

matplotlib + seaborn >= 3.9, >= 0.13

Quando e usada

Geração de graficos publication-ready: taxa de citação por LLM, tendência temporal, heatmap concorrentes, impacto de intervenções. Gerados no benchmark semanal.

Por que foi escolhida

matplotlib e o padrão de facto em publicação acadêmica — journals e conferências (SIGIR, WWW, Nature) exigem graficos vetoriais ou PNG 300+ DPI. seaborn adiciona temas estatísticos (IC 95%, distribuicoes) sobre matplotlib. Output direto em PNG 300 DPI sem pos-processamento.

Alternativas descartadas

Plotly (interativo, otimo para web, mas journals querem imagens estaticas), Altair (API declarativa elegante mas output limitado para publicação), ggplot2/R (excelente mas requer linguagem extra).

CLI Framework

click + rich >= 8.1, >= 13.7

Quando e usada

Interface de linha de comando para todos os comandos: collect, analyze, db, intervention, finops. Flag --vertical para seleção de setor. Usado diariamente em CI/CD e em execução local.

Por que foi escolhida

click fornece composição hierárquica de comandos (groups), type checking de argumentos e geração automática de --help. rich adiciona tabelas formatadas, progress bars e syntax highlighting no terminal — essencial para FinOps status e alertas visíveis no log do GitHub Actions. Suporte multi-vertical via --vertical flag com validação de coorte.

Alternativas descartadas

argparse (verboso, sem composição nativa), typer (depende de click internamente, adiciona layer desnecessário), fire (mágico demais, tipagem fraca).

API REST

FastAPI + Uvicorn >= 0.111, >= 0.30

Quando e usada

Endpoint /api/verticals para seleção de vertical no frontend. Exposição de dados de citação e métricas por setor via API REST.

Por que foi escolhida

FastAPI oferece validação automática com Pydantic, documentação OpenAPI auto-gerada e async nativo. Uvicorn é o servidor ASGI de referência. Permite que o frontend do Papers selecione vertical, consulte dados e visualize métricas sem acessar o banco diretamente. Suporte multi-vertical nativo com filtros por setor.

Alternativas descartadas

Flask (sync, sem validação automática), Django REST (overkill para 3-4 endpoints), Starlette (FastAPI já usa internamente, sem ganho em usar diretamente).

CI/CD

GitHub Actions (3 workflows) ubuntu-latest + Python 3.11

Quando e usada

daily-collect.yml (06:00 BRT diário), weekly-benchmark.yml (domingo 08:00 BRT), finops-monitor.yml (a cada 6h). Coleta, análise e monitoramento 100% automáticos.

Por que foi escolhida

Zero custo para repos públicos. Integração nativa com GitHub Secrets (API keys criptografadas). Artifacts para persistir banco entre runs (90-365 dias de retencao). Cron scheduling nativo. Auto-commit de dados e documentação sem servidor externo.

Alternativas descartadas

GitLab CI (projeto já esta no GitHub), Jenkins (requer servidor), Airflow (overkill para 3 DAGs simples), cron local (depende de maquina ligada, sem persistencia de artifacts).

Gestão de Custos

FinOps Tracker (custom) v2 — integrado no LLMClient

Quando e usada

Cada chamada de API: pre-flight (can_spend) e post-flight (record). Monitoramento independente a cada 6h. Dashboard e checkpoint auto-gerados.

Por que foi escolhida

Nenhuma ferramenta off-the-shelf rastreia custos de LLM com granularidade de query individual, circuit breaker e integração com SQLite. O tracker customizado extrai tokens reais do JSON de resposta de cada provider (OpenAI, Anthropic, Google, Perplexity usam campos diferentes), calcula custo com tabela de preços atualizada e impoe limites antes de cada chamada.

Alternativas descartadas

LiteLLM (proxy centralizado, adiciona latência e ponto de falha), Helicone (SaaS com custo proprio), LangSmith (focado em tracing de chains, não em cost governance). Nenhum oferece circuit breaker ou hard stop automático.

Alertas

Resend API REST API

Quando e usada

Disparado automaticamente quando gasto atinge 70% (warning), 90% (critical) ou 100% (exceeded) do limite. Também em anomalias de custo e stale data (sem coleta em 48h).

Por que foi escolhida

API simples (1 endpoint POST), free tier generoso (100 emails/dia), HTML templates inline sem necessidade de servidor SMTP. Já usado no projeto principal (alexandrecaramaschi.com) para leads — reaproveita a mesma key.

Alternativas descartadas

SendGrid (API mais complexa, free tier restritivo), AWS SES (requer conta AWS), Mailgun (requer verificação de dominio), SMTP direto (bloqueado em GitHub Actions, requer relay).

Segurança

finops/secrets.py (custom) SHA-256 fingerprints

Quando e usada

Auditoria a cada 6h (finops-monitor.yml). Scan de vazamentos em cada ciclo de monitoramento. Validação de health das keys sem consumir tokens.

Por que foi escolhida

Armazena fingerprints SHA-256 das keys (nunca a key real) para detectar rotacao. Scan regex para 5 patterns de API key (OpenAI, Anthropic, Google, Perplexity, Resend) em arquivos tracked no Git. Validação de health via endpoints gratuitos (/v1/models) que confirmam se a key e valida sem gastar quota.

Alternativas descartadas

Vault (HashiCorp) — overkill para 5 keys, requer servidor. GitHub Secret Scanning — só detecta após push, não previne. truffleHog — ferramenta externa, não integrada no pipeline Python.

Repositório aberto

Código, dados e documentação do projeto Papers são open source (MIT). 4.609 linhas de Python, 19 testes, 3 workflows GitHub Actions.

Ver no GitHub

Perguntas frequentes

Dúvidas sobre a pesquisa

Os dados são realmente verificáveis?

Sim. Todos os números exibidos nesta página são extraídos diretamente do banco papers.db, disponível no repositório GitHub com licença MIT. Qualquer pessoa pode clonar o repositório e reproduzir os resultados.

O que são as 8 entidades fictícias?

São entidades criadas especificamente para detectar falsos positivos nas respostas dos LLMs. Se um modelo citar uma entidade inexistente, o resultado é imediatamente descartado como alucinação, garantindo a integridade dos dados empíricos.

Quais LLMs são monitorados?

O framework coleta dados de 4 grandes modelos: ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic) e Perplexity. Cada query é enviada para todos os modelos simultaneamente, permitindo comparação direta de taxas de citação por entidade.

Com que frequência os dados são atualizados?

O banco de dados é atualizado automaticamente por GitHub Actions com frequência diária. A página exibe o timestamp do último snapshot no topo da seção de métricas.

Posso usar esta metodologia na minha empresa?

O código-fonte é licenciado sob MIT — uso livre, inclusive comercial. Entre em contato via diagnóstico para discutir como adaptar o framework GEO para as verticais do seu negócio.

Aplique GEO na sua empresa

Diagnóstico gratuito de 30 minutos para identificar o potencial de visibilidade da sua marca nos motores generativos.

Agendar diagnóstico

Alexandre Caramaschi — CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil

brasilgeo.ai | alexandrecaramaschi.com | ORCID: 0009-0004-9150-485X

PESQUISA EMPÍRICA EM GEO

v2.0.0-reboot · 23/04/2026

Papers
Pesquisa empírica confiável em GEO

Última coleta: 13 de maio de 2026 · Repo: 13/05/2026, 11:43:17

17.531

Queries coletadas

Empíricas, verificáveis

5.177

Citações encontradas

29.5% taxa global

Entidades monitoradas

61 reais + 8 fictícias

97%

Atribuição nomeada

167 named de 172 contextos

Critérios peer review

Hinton · Bengio · LeCun · Karpathy · Kaplan · Gomez

US$ 0.00

Custo mensal

0.00% do orçamento

Por que confiar nesta pesquisa

6 pilares de confiabilidade científica

Multi-LLM cross-check

Mesmas queries enviadas a 4 LLMs (ChatGPT, Claude, Gemini, Perplexity) simultaneamente. Convergência entre modelos é evidência forte; divergência identifica viés específico.

8 entidades fictícias

Marcas inventadas inseridas nas queries para detectar falsos positivos. Se um LLM cita uma entidade fictícia, sabemos que está alucinando — invalidação automática do dado.

97% atribuição nomeada

Apenas 5 das 172 menções analisadas são linkadas sem nome. 97% (167) são citações pelo nome próprio da empresa — alta precisão, baixo ruído.

Auditoria por 6 critérios peer review

FinOps governado

Tokens reais extraídos de cada resposta de API (zero estimativas). Circuit breaker automático em spike, hard stop em 95% do orçamento. US$ 0,18 mensal de custo total comprovado.

Open source MIT + reproduzível

CONTEXTO

Por que pesquisa empírica em GEO

ARQUITETURA

7 módulos, 3 workflows, zero intervenção manual

01Citation Tracker

Monitora citações de entidades em 4 verticais (Fintech, Varejo, Saúde, Tecnologia) em 5 LLMs. 61 entidades, 17 campos por observação: cited, position, attribution, hedging, sentiment, sources.

02Multi-Vertical Benchmark

Cada vertical possui sua própria coorte de 15+ entidades monitoradas nas mesmas queries. Comparação cross-vertical de padrões de citação. Essencial para significância estatística.

03SERP vs AI Overlap

Jaccard index semanal entre top 10 Google e fontes citadas pelos LLMs. Prova que GEO e diferente de SEO.

04Intervention Tracker

Framework A/B testing. Registra intervenções (Schema.org, llms.txt) e mede impacto na citação com Fisher exact test.

05Context Analyzer

Analisa COMO a entidade e citada: sentimento, atribuição, precisão factual, detecção de alucinações. 30+ padrões regex.

06Statistical Analysis

Chi-squared, t-test, ANOVA, regressão logística, Bonferroni. Effect sizes: Cohen-d, Cramer-V, eta-squared. Publication-ready.

07FinOps Monitor

Tokens reais da API (nunca estimativas). Circuit breaker, anomaly detection, alertas por email, dashboard auto-gerado.

FRAMEWORK MULTI-VERTICAL

4 verticais, 61 entidades reais, cobertura setorial empírica

Fintech

16 entidades

36.8% taxa real·4400 queries·1620 citadas

NubankItaúStoneCieloPagBankC6 BankBanco InterBradescoMercado PagoPicPayAme DigitalNeonOriginalBS2SafraBanco Carrefour

Varejo

15 entidades

33.5% taxa real·4400 queries·1475 citadas

Magazine LuizaCasas BahiaMercado LivreAmazon BrasilShopee BrasilAmericanasCarrefourPão de AçúcarRennerRiachueloC&A BrasilHavanLeroy MerlinNetshoesDafiti

Saúde

15 entidades

23.4% taxa real·4379 queries·1024 citadas

DasaHapvidaUnimedFleuryRede D'OrEinsteinSírio-LibanêsMater DeiHermes PardiniSabinAmilSulAmérica SaúdePrevent SeniorHCorA.C. Camargo

Tecnologia

15 entidades

24.3% taxa real·4352 queries·1058 citadas

TivitTotvsStefaniniAccentureCI&TGlobantSoftplanLinxLocawebMovileiFood TechVtexRD StationInvolvesTempest Security

SNAPSHOT EMPÍRICO · 13 DE MAIO DE 2026

O que os dados mostram hoje

Resultados verificáveis contra papers.db (17.531 queries). Cada número abaixo pode ser reproduzido executando os scripts Python contra o mesmo banco.

Taxa de citação por LLM (ranking real)

★Perplexity

82.6%

Perplexity AI

1728 queries1428 citadas4.0s latência

Claude

35.5%

Anthropic

3899 queries1385 citadas3.9s latência

ChatGPT

27.4%

OpenAI

3968 queries1089 citadas6.3s latência

Groq

20.1%

Groq

3968 queries799 citadas1.9s latência

Gemini

12.0%

Google

3968 queries476 citadas27.5s latência

Top entidades citadas (Fintech)

Nubank

1101

Magazine Luiza

679

Mercado Livre

638

Americanas

332

EMS

307

PicPay

295

Totvs

292

Hypera Pharma

283

Qualidade da atribuição

Atribuição nomeada vs linkada

7801 nomeadas (100.0%) · 1 apenas linkadas

Posição na resposta (tercil)

43.0% aparecem no 1º tercil da resposta — posição privilegiada de leitura

Ver dashboard completo de Research →

ACESSO E LINKS

Entregáveis e relatórios

Todos os artefatos produzidos pelo projeto Papers estão acessíveis publicamente. O dashboard de pesquisa requer verificação por email para acesso.

Research DashboardWeb App

Dashboard interativo com gate de verificação por email. Acesso via código de 6 dígitos. Visualiza citações por LLM, ranking de entidades, série temporal e status FinOps para os 4 verticais.

alexandrecaramaschi.com/research

Papers RoadmapDocumentação

Esta página. Roadmap visual do projeto com status de cada fase, stack tecnológica detalhada, painel de especialistas e requisitos de publicação acadêmica.

alexandrecaramaschi.com/papers-roadmap

GitHub RepositoryOpen Source

Código-fonte open-source (MIT). 4.600+ linhas de Python, 7 módulos de coleta, API REST FastAPI com 17 endpoints, 3 workflows GitHub Actions automatizados.

github.com/alexandrebrt14-sys/papers

API REST (FastAPI)localhost:8000

FinOps DashboardAuto-gerado

Dashboard HTML auto-gerado após cada coleta em output/finops_dashboard.html. Gauge de gastos por provider, série temporal de custos, alertas ativos e status do circuit breaker.

ROADMAP DETALHADO

4 fases com critérios de aceitação

Cada tarefa tem status, tipo e critério mensurável. Estilo Microsoft 365 Roadmap.

EntregueEm progressoPlanejadoBloqueado

FASE 0Semana 1 — 8 tarefas

Desbloqueio — Concluído

Billing ativado, 5 LLMs operacionais, CI/CD validado, primeira coleta realizada

8/8

entregue

$0,80

custo dia 1

P0-01

Billing OpenAI ativado

Conta hevtau@gmail.com com billing ativo. Key papers-geo-research criada. gpt-4o-mini operacional.

Entregue

P0-02

Créditos Anthropic ($55)

US$ 55 adicionados via Visa 7643 (Receipt 2472-6741-3835). claude-haiku-4.5 operacional. Tier 2.

Entregue

P0-03

Billing Google Cloud (R$500) + Gemini 2.5 Flash

Cloud billing ativado (R$500 Virtuitau 7706). gemini-2.0-flash descontinuado (limit:0). Migrado para gemini-2.5-flash.

Entregue

P0-04

6 GitHub Secrets configurados

OPENAI_API_KEY, ANTHROPIC_API_KEY, GOOGLE_AI_API_KEY, PERPLEXITY_API_KEY configurados via API. Workflow permissions habilitadas.

Entregue

P0-05

Corrigir bug intervention add

cli.py:255 passava LLMConfig em vez de strings de query. Corrigido para STANDARD_QUERIES[:5].

Entregue

P0-06

Remover hardcoded path Windows

update-docs.py referenciava C:/Sandyboxclaude/Logss/ — falha no Ubuntu CI. Agora usa path relativo.

Entregue

P0-07

Primeira coleta completa (5 LLMs)

5 coletas em 2026-03-24: 406 respostas válidas, 6 citações (5,5%), 2 verticais (fintech + tecnologia). Custo: $0,80.

Entregue

P0-08

CI/CD operacional (13/13 steps OK)

daily-collect.yml testado 3x até sucesso. Workflow permissions corrigidas. Coleta + FinOps + docs + commit automáticos.

Entregue

FASE 1Semanas 2-3 — 20 tarefas — Concluída

Rigor Metodológico + Multi-Vertical

F1-01

Coleta dual: resposta natural + análise post-hoc

Entregue

F1-02

Word boundary matching + exclusão de ambíguos

Entregue

F1-03

Perplexity classificada como engine RAG separada

Entregue

F1-04

Entidades fictícias para calibração de falsos positivos

8 entidades que não existem adicionadas (2 por vertical). Ex: 'Banco Floresta Digital', 'TechNova Solutions'. Qualquer detecção dessas entidades = taxa base de falso positivo do detector.

Entregue

F1-05

Coorte internacional para comparação cross-market

5 fintechs globais (Revolut, Monzo, N26, Chime, Wise) adicionadas ao coorte fintech. Permite medir se marcas brasileiras são menos citadas que equivalentes globais — dado inédito na literatura.

Entregue

F1-06

max_tokens aumentado para 800 (elimina viés de truncamento)

Respostas de 250 tokens favoreciam marcas grandes (primacy bias). Com 800 tokens, entidades menores que apareceriam em parágrafos posteriores agora são capturadas. Perplexity mantida em 500.

Entregue

F1-07

Model pinning + preservação de resposta completa

OpenAI pinado em gpt-4o-mini-2024-07-18 para reprodutibilidade. Campo raw_text preserva resposta integral antes de truncamento. Outro pesquisador consegue replicar com o mesmo modelo.

Entregue

F1-08

FDR Benjamini-Hochberg + correção do Cohen's d

Correção para múltiplas comparações via FDR (menos conservador que Bonferroni). Desvio padrão corrigido para amostral (ddof=1). Padrão ouro para publicação em KDD/SIGIR.

Entregue

F1-09

Queries corrigidas — removidas referências a GEO/SEO

Entregue

F1-10

Seleção de vertical na CLI (--vertical flag)

Flag --vertical aceita fintech, varejo, saúde, tecnologia ou all. Cada vertical carrega coorte próprio e queries adaptadas ao setor. Coleta diária roda todas as 4 verticais em sequência.

Entregue

F1-11

4 verticais com 64 entidades + 8 fictícias

Fintech (14+5 internacionais+2 fictícias), Varejo (14+2), Saúde (14+2), Tecnologia (14+2). Queries 50% PT-BR / 50% EN para validade ecológica. Sem anos nas queries para evitar recency bias.

Entregue

F1-12

Circuit breaker + rate limiting por provider

Gemini: 4s entre queries (15 RPM exato, zero erros 429). Perplexity: query routing inteligente — só recebe categorias descoberta/comparativo (57% menos custo). Custo/rodada: $0,18 para $0,12.

Entregue

F1-13

CitationContextAnalyzer integrado no pipeline

Entregue

F1-14

insert_interventions() no DatabaseClient

Entregue

F1-15

check_interventions() automático

Verificação automática de intervenções ativas em cada ciclo de coleta. Compara taxa de citação pré/pós intervenção e calcula significância estatística com Fisher exact test.

Entregue

F1-16

CLI analyze visualize

Comando 'python -m src.cli analyze visualize' adicionado à CLI. Gera gráficos de citação por LLM, série temporal e heatmap de entidades em PNG 300 DPI para publicação acadêmica.

Entregue

F1-17

check_anthropic_balance() corrigido

Entregue

F1-18

Concurrency groups nos 3 workflows

Adicionados concurrency groups nos 3 workflows GitHub Actions (daily-collect, weekly-benchmark, finops-monitor) para evitar race conditions no banco SQLite e nos artifacts compartilhados.

Entregue

F1-19

4 dependências mortas removidas

Entregue

F1-20

Pricing alinhado com tabelas atuais

Tabela de preços dos 4 providers atualizada para valores de março/2026. Corrigido pricing do Gemini (gemini-2.5-flash) e Perplexity (sonar). Impacto direto na precisão dos relatórios FinOps.

Entregue

FASE 2Semanas 3-4 — 12 tarefas

Qualidade, Resiliência e Web

API REST FastAPI, dashboard React, sync Supabase, gate de email, publicação online. Testes e CI/CD em progresso.

F2-01

Planejado10+

Testes db/client.py

10+ testes com DB in-memory para insert, query, export CSV

F2-02

Planejado12+

Testes finops/tracker.py

Record, budget enforcement, circuit breaker, anomaly detection com mocks

F2-03

Planejado8+

Testes finops/monitor.py

Rollup, stale data detection, pricing validation, checkpoint export

F2-04

Planejado6+

Testes finops/secrets.py

mask_key, fingerprint SHA-256, scan_git_for_leaks, key rotation

F2-05

Planejado5+

Testes persistence/timeseries.py

save_aggregate, get_time_series, compute_daily, data_health

F2-06

Planejado8+

Testes collectors/base.py

LLMClient com mocks httpx (respx), token extraction, cost calculation

F2-07

Planejadoimpl

Retry com backoff exponencial

3 tentativas (2s, 5s, 10s) com jitter. Não retenta 401/403. Log cada retry.

F2-08

PlanejadoCI

Workflow pytest.yml

Testes automáticos em cada push/PR. Fail-fast. Coverage como artifact.

F2-09

PlanejadoCI

Workflow ruff lint

Lint automático com ruff. Bloqueia merge se houver violações.

F2-10

PlanejadoCI

Type checking mypy

Verificação de tipos em src/. Zero erros para merge.

F2-11

Planejado16+

Testes parametrizados por vertical

pytest.mark.parametrize com 4 verticais. Valida coorte, queries e schema por setor.

F2-12

EntregueAPI

API REST (FastAPI) com 17 endpoints

17 endpoints em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps. Background tasks para coleta sob demanda. Auth via X-API-Key. CORS habilitado. Swagger em /docs.

F2-13

EntregueUI

Dashboard HTML self-contained

Frontend dark-theme com seletor de verticais, KPIs dinâmicos, barras de citação por LLM, ranking de entidades sortável, série temporal SVG com sparklines.

F2-14

Entreguedata

Sync SQLite para Supabase

Script sync_to_supabase.py sincroniza dados agregados diariamente para Supabase PostgreSQL via REST API. Step automático no GitHub Actions após cada coleta.

F2-15

Entregueauth

Gate de verificação por email

Acesso ao dashboard via código de 6 dígitos enviado por email (Resend API). JWT cookie HttpOnly com validade de 7 dias. Rate limiting integrado.

F2-16

Entregueweb

Dashboard React em /research

F2-17

Entreguedeploy

Publicação em alexandrecaramaschi.com/research

Dashboard acessível via bypass do gate de email enquanto o domínio Resend é verificado em produção. Deploy automático via Vercel.

F2-18

Entreguev1.1

geo-finops: tracking unificado de 4 projetos

F2-19

Entreguestats

Bootstrap BCa + Beta-binomial + Fisher fallback

F2-20

Entreguestats

Cohen's e Fleiss' kappa (inter-rater reliability)

F2-21

Entreguestats

Brier score + reliability diagram

F2-22

Entregueschema

Coluna model_version em citations

F2-23

Entregueschema

Bridge Papers ↔ GEO Score Checker

F2-24

Entreguecalib

scripts/calibrate_score.py — pesos calibrados

F2-25

Entregueui

GEO Score Checker: inference.ts (TS puro)

F2-26

Entregueui

Fleiss kappa no Answer Bubble Divergence

F2-27

Entregueui

computeFinalScoreWithCI — score com IC BCa

FASE 3Semanas 4-12 — 8 marcos

Dados e Análise

90 dias de coleta contínua em 4 verticais, 2 experimentos A/B, datasets reprodutíveis por setor

F3-01

30 dias de coleta por vertical

8.640 obs

F3-02

Primeiro experimento A/B (Schema.org)

Intervenção: adicionar JSON-LD em página-alvo. Medição: citação antes/depois em janelas de 7, 14, 30 dias. Fisher exact test.

>100 med

F3-03

4.000 citações acumuladas (cross-vertical)

Tamanho amostral mínimo para testes com poder >0.8 por vertical. Distribuição esperada: ~1.000 por vertical, ~250 por LLM por vertical.

4.000 cit

F3-04

Primeiro resultado com significância cross-vertical

Chi-squared entre LLMs por vertical, ANOVA multi-grupo cross-vertical. Effect sizes reportados. Comparação de padrões entre Fintech, Varejo, Saúde e Tecnologia.

p < 0.05

F3-05

Dataset CSV reprodutível por vertical

citations_fintech.csv, citations_varejo.csv, citations_saude.csv, citations_tecnologia.csv + agregados. Formato compatível com R, SPSS, pandas.

8+ CSVs

F3-06

90 dias de coleta contínua (4 verticais)

~25.920 observações totais (288/dia x 90 dias). Com respostas de 800 tokens em modo natural (não JSON forçado). Suficiente para tendência e sazonalidade.

25.920 obs

F3-07

Segundo experimento A/B (llms.txt)

Medir se llms.txt aumenta citação. Design crossover se possível. Fisher exact + odds ratios.

>100 med

F3-08

Análise de divergência SERP vs IA por vertical

12+ semanas de Jaccard index semanal por vertical. Prova empírica de que GEO é diferente de SEO e que padrões variam entre setores.

12 sem

FASE 3.5Maio–Junho 2026 — Maturação Metodológica

Calibração + Modelagem Hierárquica + IRT + Causalidade

Próximos saltos matemáticos depois da entrega da bridge Papers ↔ GEO Score Checker (08/04/2026)

F35-01

Coleta real (D1..D8 + k/n) para 50+ sites em score_calibration_inputs

200+ rows

F35-02

GLMM (mixed-effects) com random effect por domínio + vertical

GLMM

F35-03

Análise fatorial confirmatória das 8 dimensões

8→3-4 dim

F35-04

IRT 2-PL: cada dimensão como item, site como respondente

IRT 2PL

F35-05

Bootstrap BCa do Score em produção (4+ réplicas LLM por dimensão)

BCa CI live

F35-06

BSTS / CausalImpact para a 9ª dimensão Causal Impact

Δ posterior

F35-07

Stage-aware weights (lead-gen vs e-commerce vs SaaS)

3 stages

F35-08

Pre-registro público no OSF + congelamento confirmatório

OSF

FASE 4Semanas 12-20

Publicação Acadêmica

1 preprint ArXiv (multi-vertical) + 2 submissões a conferências tier-1 e journals

ArXiv

How LLMs Cite Entities Across Industry Verticals

Estudo multi-vertical de visibilidade em busca generativa

SIGIR / WWW

GEO vs SEO: Source Divergence

Evidência empírica de divergência em busca por IA

Jaccard index semanal entre Google SERP e fontes de LLMs. Quantifica a divergência que justifica GEO como disciplina distinta de SEO. 12+ semanas de dados comparativos por vertical.

Information Sciences

Industry-Specific Patterns in AI Citation: Banking, Retail, Healthcare, and Technology

Padrões setoriais de citação por LLMs no mercado brasileiro

REBOOT ALGORÍTMICO · 23/04/2026

v2.0.0-reboot — Reimplementação pós Paper 4

10 IMPLEMENTAÇÕES CANÔNICAS78/78 testes passando · 3 commits (deea1bb + 680240f + 93cea8b)

01NER v2 — NFC + NFKD dual-pass

Word-boundary rigoroso, aliases e stop-contexts. Dry-run em 2.000 linhas: −45% de falsos positivos (v1 cited=1.409 → v2 cited=776).

02Cluster-robust CR1 sandwich

Estimador CR1 para diferença de proporções entre grupos que compartilham clusters (dias de coleta).

03Monte Carlo null simulation

Substitui o threshold Jaccard arbitrário de 0.30 pelo P5 empírico sob H0 de uniformidade. Threshold vira dado, não opinião.

04Power analysis operacional

Rule-of-3 inverso (H2), Cohen's h (H1/H4), design effect (H5). Gera roadmap de dias-até-target-power por hipótese.

05GLMM (mixed-effects logit)

statsmodels BinomialBayesMixedGLM com random intercepts aninhados (query, day, entity). Resolve dependência intra-cluster.

06Cohort v2 — 128 entidades

80 BR reais + 32 anchors internacionais + 16 decoys fictícios (4 verticais × 4). Anchors permitem cross-vertical comparison.

07Query battery v2 — 192 queries

Balanceadas 50/50 PT/EN e 50/50 directive/exploratory. 4 verticais × 6 categorias × 2 línguas × 2 tipos × 2 temporal.

08Hypothesis engine canônico

BH-FDR automático e decision rule pré-registrada: rejeitar H0 se e somente se p-ajustado BH < 0,05 E IC 95% exclui o nulo.

09Reprodutibilidade Docker-first

Dockerfile com PYTHONHASHSEED=20260424, requirements-lock.txt pinado, scripts/reproduce.sh regenera tabelas via git tag com SHA-256 manifest.

1078/78 testes passing

entity_extraction (24) · cluster_robust (6) · null_simulation (8) · power_analysis (10) · config_v2 (16) · hypothesis_engine (14).

CHANGELOG.md docs/METHODOLOGY_V2.md github.com/alexandrebrt14-sys/papers Zenodo DOI 10.5281/zenodo.19712217

PAPER 4Entregue

Three Ways to Fail to Conclude: A Null-Triad in GEO Research

Draft v1 — 6.664 palavras, 35 seções

Status: submetido ao SSRN + Zenodo published
DOI Zenodo: 10.5281/zenodo.19712217
Companion: SSRN 10.2139/ssrn.6460680
Pendente: OSF preregistration em 24/04

PAPER 5Em progressoTARGET ELSEVIER

Estudo confirmatório multi-vertical sobre a infraestrutura v2

Alvo: Information Sciences (Elsevier, IF 8.1)

Status: infraestrutura v2 pronta, aguardando OSF preregistration v2
Timeline: OSF prereg → coleta 90d → análise → submissão Elsevier
Mudanças canônicas em relação à v1:

Dataset Zenodo com papers.db + CITATION.cff + schema.sql
200 linhas anotadas humano para κ inter-rater
Prompt sensitivity cron mensal (gap Bengio)
Scaling observations trimestral (Gemini Flash + GPT-4o full + Claude Sonnet)

RIGOR METODOLÓGICO

Recomendações de painel de especialistas

Geoffrey Hinton

“LLMs são tratados como caixas pretas idênticas”

Implementado

Coleta dual — JSON estruturado + linguagem natural

Aidan Gomez

“Não distingue RAG de conhecimento paramétrico”

Implementado

Classificação parametric vs retrieval + verificação de URLs

Yoshua Bengio

“Sem análise de sensibilidade ao prompt”

Implementado

11 variantes parafraseadas com medição de concordância

Andrej Karpathy

“ANOVA implementada incorretamente + dados ordinais com t-test”

Implementado

ANOVA between-groups com teste de Levene + Mann-Whitney para posição

Geoffrey Hinton + Andrej Karpathy

“Modelos são atualizados silenciosamente durante o estudo”

Implementado

Detecção automática de drift com hashing de respostas

Jared Kaplan

“Sem análise de scaling — apenas modelos baratos”

Planejado

Comparação semanal com modelos maiores (gpt-4o, sonnet)

Yann LeCun

“Análise de sentimento com regex é primitiva”

Planejado

Validação com anotação humana + Cohen's kappa

OBJETIVO FINAL

Publicação acadêmica peer-reviewed

SIGIR 2026

Conferencia ACM — Melbourne, Australia — 20-24 Jul 2026

Site oficial

Impacto

Top-1 em Information Retrieval

Formato

ACM sigconf (LaTeX). Full papers: 9 páginas + referências ilimitadas. Short papers: 4 páginas.

Regras rígidas de aceitação

Submissão anonimizada (double-blind) — sem nome de autor, sem auto-citações identificaveis
Trabalho original não publicado em nenhum outro venue com proceedings
Preprints no ArXiv são permitidos (não conta como publicação previa)
Reproducibilidade: datasets e código devem ser disponibilizados ou descritos em detalhe suficiente
Avaliação empírica robusta com baselines comparativas e testes de significância estatística

O que o Papers precisa gerar

90+ dias de dados, chi-squared entre LLMs, grupo de controle, dataset CSV público. O Papers gera tudo isso automaticamente.

WSDM 2026

Conferencia ACM — Boise, Idaho, EUA — 22-26 Fev 2026

Site oficial

Impacto

Top-3 em Web Search and Data Mining

Formato

ACM sigconf anonymous review. Full papers: 9 páginas. Short papers (novo em 2026): 4 páginas.

Regras rígidas de aceitação

Submissão anônima obrigatória — documentclass [sigconf,anonymous,review]{acmart}
Submissões concorrentes a outros venues NÃO são permitidas
Papers publicados em journals ou conferências com proceedings são proibidos
Preprints no ArXiv são explicitamente permitidos pelo WSDM 2026
Contribuicao deve ser substancial: novos modelos, algoritmos ou insights empíricos

O que o Papers precisa gerar

Análise de divergência SERP vs IA (Jaccard index) com 12+ semanas de dados. SERP overlap tracker do Papers fornece esses dados semanalmente.

ACM TOIS

Journal ACM — Rolling submission (sem deadline fixa)

Site oficial

Impacto

Top journal em Information Retrieval (h-index: 89)

Formato

ACM LaTeX template. Sem limite rigido de páginas (tipicamente 30-40 páginas para full papers).

Regras rígidas de aceitação

Pelo menos 50% do conteúdo deve ser material não publicado previamente
Revisão por Associate Editor + mínimo 2 peer reviewers
Cobertura de related work OBRIGATÓRIA: deve citar trabalhos recentes de TOIS, SIGIR, WSDM, CIKM, WWW
Validação empírica sólida com datasets descritos em detalhe
Formalizacao de novos modelos ou métodos com fundamentação teorica

O que o Papers precisa gerar

Paper extenso com fundamentação teorica + 6 meses de dados. O framework de 10 camadas do Papers oferece a base teorica; os dados empíricos vem da coleta automatizada.

Information Sciences (Elsevier)

Journal Elsevier — Rolling submission | Impact Factor: 8.1

Site oficial

Impacto

Q1 em Computer Science / Information Systems

Formato

Elsevier article template. Sem limite rigido de páginas. APC: $3.040 USD.

Regras rígidas de aceitação

Pesquisa original, inovadora e criativa — não aceita contribuicoes incrementais
Refereed: revisão por pares com 2-3 reviewers
Deve servir pesquisadores, desenvolvedores, gestores e estudantes de pos-graduacao
Foco em knowledge engineering, intelligent systems e state-of-the-art
Publicação open access disponível (Article Publishing Charge de $3.040)

O que o Papers precisa gerar

Resultados dos 2 experimentos A/B (Schema.org e llms.txt) com Fisher exact test, odds ratios e IC 95%. O intervention tracker do Papers gera esses dados.

JASIST (Wiley)

Journal ASIS&T — Rolling submission | Single-blind review

Site oficial

Impacto

Referência em Information Science (h-index: 123)

Formato

APA Style com espacamento 1.5. Research articles: 6.000-8.000 palavras (max 7.000 excluindo abstract, keywords e referências).

Regras rígidas de aceitação

Foco na intersecao de informação, sistemas e como as pessoas os utilizam
Abstract informativo obrigatório: máximo 200 palavras
Revisão single-blind: editor-in-chief + review editor + mínimo 2 peer reviewers
Manuscrito em ingles com convencoes formais acadêmicas (APA Style)
Submissão via ScholarOne Manuscripts

O que o Papers precisa gerar

Estudo de como LLMs citam entidades (citation tracker) com análise de sentimento e atribuição (context analyzer). Foco em human-information interaction com IA generativa.

ArXiv (Preprint)

Repositório de preprints — Publicação em 1-3 dias úteis

Site oficial

Impacto

Visibilidade imediata na comunidade científica

Formato

LaTeX (preferido) ou PDF. Figuras: .pdf, .jpg, .png (PDFLaTeX) ou .ps, .eps (LaTeX).

Regras rígidas de aceitação

Desde Nov 2025: ArXiv NÃO aceita mais review articles e position papers em CS sem peer review previo
Desde Fev 2026: Todas as submissões devem ter versão completa em ingles
Moderacao: material deve ser apropriado, tópico e não plagiado
Nomes de arquivo sem caracteres especiais (espacos, asteriscos causam rejeicao)
Papers originais com contribuição empírica são aceitos sem peer review previo

O que o Papers precisa gerar

Paper em ingles com dados empíricos originais. O Papers gera datasets exportaveis em CSV + graficos 300 DPI prontos para LaTeX. Submissão rápida para estabelecer prioridade.

FINOPS

Governança financeira automatizada

Plataforma	Modelo	Input/1M	Output/1M	Mensal	Diário	Alerta	Hard Stop
OpenAI	gpt-4o-mini	$0.15	$0.60	$10	$1.00	70%	95%
Anthropic	claude-haiku-4.5	$0.80	$4.00	$10	$1.00	70%	95%
Google	gemini-2.5-flash	$0.15	$0.60	$5	$0.50	80%	100%
Perplexity	sonar	$1.00	$1.00	$10	$1.00	70%	95%
GLOBAL	—	—	—	$35	$3.50	70%	95%

Tokens reais

Extrai prompt_tokens e completion_tokens diretamente de cada resposta de API. Zero estimativas.

Circuit breaker

Spike >$2/hora abre circuito por 30 min. Protege contra loops de erro ou queries caras.

Anomaly detection

Alerta se query individual >$0.50 ou gasto horario anormal. Dedup de 6 horas.

Security audit

Scan de vazamentos no Git, validação de health das keys, detecção de rotacao. A cada 6h.

STACK TECNOLÓGICA DETALHADA

6 camadas, cada escolha com justificativa técnica

Da coleta de dados ao deploy em produção: tecnologias selecionadas para reprodutibilidade acadêmica, custo mínimo e operação autônoma via CI/CD.

Coleta de Dados (Backend Python)

Python 3.11 + httpx — Cliente HTTP direto para 4 APIs de LLM sem SDKs pesados
ResponseCache com SHA-256 — Cache local de 20h por chave (vertical + LLM + query) evitando recoleta
Circuit breaker — Proteção automática contra rate limiting (429). Após 2 retries, pula o LLM e continua
7 módulos: Citation Tracker, Cohort Benchmark, SERP Overlap, Intervention Tracker, Context Analyzer, Statistical Analysis, FinOps Monitor

API REST (FastAPI)

17 endpoints organizados em 6 grupos: Health, Verticals, Citations, Collections, Analysis, FinOps
Background tasks para coleta sob demanda e geração de relatórios
Auth via API key (header X-API-Key)
CORS habilitado para frontend Next.js
Documentação automática via Swagger em /docs

Frontend Web (Next.js)

Página /research com React Server Components + metadata SEO
Gate de verificação por email: código 6 dígitos via Resend, JWT cookie HttpOnly (7 dias)
Dashboard React com seletor de 4 verticais, KPIs dinâmicos, barras de citação por LLM, tabela de ranking sortável, sparkline SVG
Design system Salesforce/Lucida consistente com o site principal

Persistência

SQLite WAL mode — banco local para coleta diária (~252 registros/dia, 4 verticais)
Supabase PostgreSQL — dados agregados para o dashboard web
Sync automático: GitHub Actions roda sync_to_supabase.py após cada coleta

CI/CD e Automação

GitHub Actions: coleta diária 06:00 BRT (matrix strategy, 4 verticais sequenciais)
GitHub Actions: benchmark semanal domingo 08:00 BRT
GitHub Actions: FinOps monitor a cada 6h
Concurrency groups para evitar race conditions
Vercel auto-deploy para o site pessoal

Governança de Custos (FinOps)

Budget $35/mês global com alertas em 70%, 90%, 100%
Tokens reais extraídos de cada resposta (zero estimativas)
Circuit breaker: spike >$2/hora abre circuito por 30min
Dashboard HTML auto-gerado com gauge de gastos
Custo estimado: ~$0.12/dia ($3.60/mês) para 4 verticais

Escolhas técnicas detalhadas

Cada tecnologia com justificativa e alternativas descartadas.

HTTP Client

httpx >= 0.27

Quando e usada

Toda chamada a API de LLM (coleta diaria e semanal)

Por que foi escolhida

Suporte nativo a HTTP/2, timeouts granulares, async-ready. Permite controle total do request (headers customizados para cada provider, retry manual com backoff). Menor footprint que SDKs oficiais.

Alternativas descartadas

Persistencia

SQLite (via sqlite3) Built-in Python 3.11+

Quando e usada

Armazenamento de todos os dados: citações, benchmarks, FinOps, alertas, rollups. Usado em cada coleta e em cada ciclo de monitoramento.

Por que foi escolhida

Alternativas descartadas

Análise Estatística

scipy + statsmodels >= 1.13, >= 0.14

Quando e usada

Relatório semanal de análise (weekly-benchmark.yml). Também disponível sob demanda via CLI.

Por que foi escolhida

Alternativas descartadas

Visualização

matplotlib + seaborn >= 3.9, >= 0.13

Quando e usada

Geração de graficos publication-ready: taxa de citação por LLM, tendência temporal, heatmap concorrentes, impacto de intervenções. Gerados no benchmark semanal.

Por que foi escolhida

Alternativas descartadas

Plotly (interativo, otimo para web, mas journals querem imagens estaticas), Altair (API declarativa elegante mas output limitado para publicação), ggplot2/R (excelente mas requer linguagem extra).

CLI Framework

click + rich >= 8.1, >= 13.7

Quando e usada

Interface de linha de comando para todos os comandos: collect, analyze, db, intervention, finops. Flag --vertical para seleção de setor. Usado diariamente em CI/CD e em execução local.

Por que foi escolhida

Alternativas descartadas

argparse (verboso, sem composição nativa), typer (depende de click internamente, adiciona layer desnecessário), fire (mágico demais, tipagem fraca).

API REST

FastAPI + Uvicorn >= 0.111, >= 0.30

Quando e usada

Endpoint /api/verticals para seleção de vertical no frontend. Exposição de dados de citação e métricas por setor via API REST.

Por que foi escolhida

Alternativas descartadas

Flask (sync, sem validação automática), Django REST (overkill para 3-4 endpoints), Starlette (FastAPI já usa internamente, sem ganho em usar diretamente).

CI/CD

GitHub Actions (3 workflows) ubuntu-latest + Python 3.11

Quando e usada

daily-collect.yml (06:00 BRT diário), weekly-benchmark.yml (domingo 08:00 BRT), finops-monitor.yml (a cada 6h). Coleta, análise e monitoramento 100% automáticos.

Por que foi escolhida

Alternativas descartadas

GitLab CI (projeto já esta no GitHub), Jenkins (requer servidor), Airflow (overkill para 3 DAGs simples), cron local (depende de maquina ligada, sem persistencia de artifacts).

Gestão de Custos

FinOps Tracker (custom) v2 — integrado no LLMClient

Quando e usada

Cada chamada de API: pre-flight (can_spend) e post-flight (record). Monitoramento independente a cada 6h. Dashboard e checkpoint auto-gerados.

Por que foi escolhida

Alternativas descartadas

Alertas

Resend API REST API

Quando e usada

Disparado automaticamente quando gasto atinge 70% (warning), 90% (critical) ou 100% (exceeded) do limite. Também em anomalias de custo e stale data (sem coleta em 48h).

Por que foi escolhida

Alternativas descartadas

SendGrid (API mais complexa, free tier restritivo), AWS SES (requer conta AWS), Mailgun (requer verificação de dominio), SMTP direto (bloqueado em GitHub Actions, requer relay).

Segurança

finops/secrets.py (custom) SHA-256 fingerprints

Quando e usada

Auditoria a cada 6h (finops-monitor.yml). Scan de vazamentos em cada ciclo de monitoramento. Validação de health das keys sem consumir tokens.

Por que foi escolhida

Alternativas descartadas

Vault (HashiCorp) — overkill para 5 keys, requer servidor. GitHub Secret Scanning — só detecta após push, não previne. truffleHog — ferramenta externa, não integrada no pipeline Python.

Repositório aberto

Código, dados e documentação do projeto Papers são open source (MIT). 4.609 linhas de Python, 19 testes, 3 workflows GitHub Actions.

Ver no GitHub

Perguntas frequentes

Dúvidas sobre a pesquisa

Os dados são realmente verificáveis?

O que são as 8 entidades fictícias?

Quais LLMs são monitorados?

Com que frequência os dados são atualizados?

O banco de dados é atualizado automaticamente por GitHub Actions com frequência diária. A página exibe o timestamp do último snapshot no topo da seção de métricas.

Posso usar esta metodologia na minha empresa?

O código-fonte é licenciado sob MIT — uso livre, inclusive comercial. Entre em contato via diagnóstico para discutir como adaptar o framework GEO para as verticais do seu negócio.

Aplique GEO na sua empresa

Diagnóstico gratuito de 30 minutos para identificar o potencial de visibilidade da sua marca nos motores generativos.

Agendar diagnóstico

Alexandre Caramaschi — CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil

brasilgeo.ai | alexandrecaramaschi.com | ORCID: 0009-0004-9150-485X

PapersPesquisa empírica confiável em GEO

6 pilares de confiabilidade científica

Multi-LLM cross-check

8 entidades fictícias

97% atribuição nomeada

Auditoria por 6 critérios peer review

FinOps governado

Open source MIT + reproduzível

Por que pesquisa empírica em GEO

7 módulos, 3 workflows, zero intervenção manual

4 verticais, 61 entidades reais, cobertura setorial empírica

Fintech

Varejo

Saúde

Tecnologia

O que os dados mostram hoje

Taxa de citação por LLM (ranking real)

★Perplexity

Claude

ChatGPT

Groq

Gemini

Top entidades citadas (Fintech)

Qualidade da atribuição

Entregáveis e relatórios

4 fases com critérios de aceitação

Desbloqueio — Concluído

Rigor Metodológico + Multi-Vertical

Qualidade, Resiliência e Web

Dados e Análise

Calibração + Modelagem Hierárquica + IRT + Causalidade

Publicação Acadêmica

How LLMs Cite Entities Across Industry Verticals

GEO vs SEO: Source Divergence

Industry-Specific Patterns in AI Citation: Banking, Retail, Healthcare, and Technology

v2.0.0-reboot — Reimplementação pós Paper 4

Three Ways to Fail to Conclude: A Null-Triad in GEO Research

Estudo confirmatório multi-vertical sobre a infraestrutura v2

Recomendações de painel de especialistas

Publicação acadêmica peer-reviewed

Governança financeira automatizada

6 camadas, cada escolha com justificativa técnica

Coleta de Dados (Backend Python)

API REST (FastAPI)

Frontend Web (Next.js)

Persistência

CI/CD e Automação

Governança de Custos (FinOps)

Escolhas técnicas detalhadas

Repositório aberto

Dúvidas sobre a pesquisa

Aplique GEO na sua empresa

PapersPesquisa empírica confiável em GEO

6 pilares de confiabilidade científica

Multi-LLM cross-check

8 entidades fictícias

97% atribuição nomeada

Auditoria por 6 critérios peer review

FinOps governado

Open source MIT + reproduzível

Por que pesquisa empírica em GEO

7 módulos, 3 workflows, zero intervenção manual

4 verticais, 61 entidades reais, cobertura setorial empírica

Fintech

Varejo

Saúde

Tecnologia

O que os dados mostram hoje

Taxa de citação por LLM (ranking real)

★Perplexity

Claude

ChatGPT

Groq

Gemini

Top entidades citadas (Fintech)

Qualidade da atribuição

Entregáveis e relatórios

4 fases com critérios de aceitação

Desbloqueio — Concluído

Rigor Metodológico + Multi-Vertical

Papers
Pesquisa empírica confiável em GEO

Papers
Pesquisa empírica confiável em GEO