Observações
397
N_eff = 181 (54% cache)
Taxa de citação
41.6%
165 citações detectadas
Modelos LLM
4
ChatGPT, Claude, Gemini, Sonar
Verticais
4
Fintech, Varejo, Saúde, Tech
Entidades
69
61 reais + 8 ficticias
Automações
7
4 ativas, 2 prontas, 1 pendente
Automações configuradas
Pipeline de automações7 processos
| Automação | Frequência | O que faz | Status |
|---|---|---|---|
| Coleta diaria de citações (Papers) | Todo dia 06:00 BRT | Envia 18 queries x 4 LLMs x 4 verticais = 288 observações/dia | Pronto |
| Benchmark semanal | Domingo 08:00 BRT | SERP vs AI Overlap + relatório estatistico completo + FinOps | Pendente |
| Coleta de métricas do site | Todo dia 08:00 UTC | GA4, GSC, DEV.to, GitHub, Lighthouse, Wikidata, PageSpeed (11 fontes) | Ativo |
| Deploy automático (Vercel) | A cada push em master | Compila 85 páginas Next.js + pública em alexandrecaramaschi.com | Ativo |
| Post-deploy (IndexNow) | Após cada deploy | Submete URLs ao Bing, Yandex, Naver para indexação rápida | Ativo |
| Dashboard horario (brasilgeo.ai) | A cada hora (cron) | Coleta dados de 7 fontes, atualiza KV cache do Worker | Ativo |
| FinOps Monitor | Após cada coleta | Calcula custos por API, verifica budget, detecta rotacao de chaves | Ativo |
💡Como funciona o ciclo diário:GitHub Actions dispara as 06:00 BRT → envia 18 perguntas a cada LLM para cada vertical → registra se a IA citou cada empresa, em que posição, com que sentimento → salva no SQLite → FinOps calcula custo → dados disponiveis nos dashboards em ate 1h.
⚠️Ação necessária: A coleta diaria (Papers) esta configurada mas depende de GitHub Secrets (API keys) serem adicionados ao repo papers para rodar via Actions. Atualmente as coletas foram manuais (local).
Dados coletados
Banco de dados Papers (SQLite)590 registros
| Tabela | Registros | Descrição |
|---|---|---|
| citations | 397 | Cada registro = 1 pergunta enviada a 1 LLM com resultado (citou/não citou, posição, sentimento, texto) |
| citation_context | 172 | Análise de cada citação: sentimento, atribuição, precisao factual, hedging, posição no texto |
| collection_runs | 7 | Histórico de execuções com timestamp, modulo, vertical, N registros, status |
| finops_budgets | 6 | Limites de gasto por plataforma ($10/OpenAI, $10/Anthropic, $5/Google, $10/Perplexity) |
| finops_key_fingerprints | 4 | Hash SHA-256 das API keys para detectar rotacao silenciosa |
| verticals | 4 | Definicao das 4 verticais com lista de entidades em JSON |
| hypotheses | 0 | Pre-registro de hipóteses estatísticas (aguardando preenchimento antes da próxima coleta) |
| interventions | 0 | Testes A/B de otimizacoes de conteúdo (schema.org, llms.txt, etc.) |
| serp_ai_overlap | 0 | Comparação Google SERP vs respostas LLM (requer BRAVE_API_KEY) |
| dual_responses | 0 | Resposta JSON vs natural do mesmo LLM para medir discrepancia |
| model_versions | 0 | Tracking de versão de modelo para detectar mudancas silenciosas |
📊397 observações já coletadas em 2 dias (24 e 26/mar). Cada observacao contem: modelo LLM, query enviada, se citou (sim/não), texto completo da resposta, latência, tokens, e 17 campos de metadados. A análise de contexto (172 registros) detalha sentimento, atribuição, precisao factual e hedging para cada citação.
Outros bancos de dados3 fontes
Supabase (Leads)
31 leads capturados via ebook. Tabela: ebook_leads (22 colunas, RLS ativo). View: leads_dashboard.
Cloudflare KV (brasilgeo.ai)
14 artigos + dashboard de 7 fontes. Atualizado a cada hora via cron trigger do Worker.
GitHub (métricas)
Coleta diaria: GA4, GSC, DEV.to (19 artigos, 73min leitura), Lighthouse, PageSpeed, Wikidata.
Distribuição dos dadospor dimensão
Por modelo
Sonar 113 | Claude 118 | GPT 136 | Gemini 30
Por vertical
Fintech 169 | Saúde 102 | Tech 63 | Varejo 63
Sentimento
Neutro 114 | Positivo 56 | Negativo 2
Posição
1o terco: 113 | 2o terco: 33 | 3o terco: 26
Atribuição
Nomeada: 167 | Com link: 5
Queries unicas
47 perguntas em PT-BR e EN
Resultados estatisticos
Citação por modelo LLMKruskal-Wallis
Perplexity SonarN=113
54%
Claude Haiku 4.5N=118
48.3%
GPT-4o-miniN=136
31.6%
Gemini FlashN=30
13.3%
💡Diferença significativa entre modelos(Kruskal-Wallis H=24.7, p<0.0001, eta2=0.062). Perplexity Sonar cita 4x mais que Gemini Flash. Explicacao: Sonar usa busca em tempo real (RAG) enquanto Gemini depende apenas de conhecimento parametrico.
Citação por verticalANOVA
FintechN=169
46.7%
TecnologiaN=63
38.1%
VarejoN=63
38.1%
SaúdeN=102
37.3%
💡Sem diferença significativa entre verticais (ANOVA F=1.09, p=0.354). Todas as verticais ficam entre 37-47%. Hipotese: o fator dominante e o modelo LLM, não o setor. Confirmar com dados longitudinais (90+ dias).
Top 5 entidades mais citadasFintech dominante
| # | Entidade | Citações | Sentimento | Posição media | Distribuição |
|---|---|---|---|---|---|
| 1 | Nubank | 44 | +12 ~31 -1 | T1.2 | |
| 2 | Banco Inter | 21 | +8 ~13 | T1.3 | |
| 3 | C6 Bank | 20 | +7 ~13 | T1.4 | |
| 4 | Itau | 17 | +5 ~12 | T1.5 | |
| 5 | PagBank | 16 | +4 ~11 -1 | T1.4 |
💡Lei de Zipf: As 3 entidades mais citadas (Nubank + Inter + C6) concentram 49.4% de todas as citações. Nubank sozinho detem 25.6%. Distribuição power-law típica: entidades com maior presença no corpus de treinamento dos LLMs dominam as respostas generativas.
Em andamento
Progresso para publicação1.5%
397 / 25.920 observações~88 dias restantes
Observações coletadas
397 / 25.920
Dias de coleta
2 / 90+
Hipóteses registradas
0 / 3+
A/B experiments
0 / 2
Correções aplicadas (26/03)7 fixes
✓cited_entity populado no tracker (67 registros backfilled)
✓GPT-4o-mini normalizado (118 rows migradas)
✓Schema corrigido: BOOLEAN para TEXT
✓FinOps rastreando custos de 4 APIs (era só OpenAI)
✓Cache hits retornam latency=NULL (não 0)
✓Leak scanner corrigido (falso positivo)
✓ANTHROPIC_API_KEY renovada no console
Timeline do projeto
Roadmap de pesquisa e publicação3 papers planejados
24/03/2026
Início
Primeira coleta: 351 observações em 4 verticais, 4 LLMs
26/03/2026
Correções
Pipeline corrigido: cited_entity, FinOps 4 APIs, latency, leak scanner, modelo normalizado
26/03/2026
Documentação
METHODOLOGY.md + revisão por painel de 7 especialistas + dashboard HTML completo
Abril 2026
Pre-registro
Registrar >= 3 hipóteses formais antes de iniciar coleta confirmatoria
Abril 2026
BRAVE_API_KEY
Configurar Brave Search API para coleta SERP (Paper 2)
Mai-Jun 2026
Coleta 90 dias
288 observações/dia x 90 dias = 25.920 observações-alvo
Junho 2026
A/B Tests
2 experimentos controlados (schema.org, llms.txt) para Paper 3
Julho 2026
Paper 1 (ArXiv)
How LLMs Cite Entities Across Industry Verticals — preprint
Agosto 2026
Paper 3 (Info Sci)
Industry-Specific Patterns in AI Citation — Information Sciences Q1
Set 2026
Paper 2 (SIGIR)
GEO vs SEO: Source Divergence — SIGIR/WWW submission
🎯Objetivo final: 3 publicações acadêmicas (ArXiv preprint + SIGIR/WWW tier-1 + Information Sciences Q1) com o maior dataset empírico já coletado sobre como LLMs citam empresas brasileiras. O dataset completo tera ~25.920 observações em 4 setores, 4 modelos e 69 entidades ao longo de 90+ dias.
Metodologia estatística
7 testes implementadosscipy + statsmodels
Kruskal-Wallis
Comparar taxas entre 4+ modelos LLM
Effect size: eta-squared
ANOVA one-way
Comparar grupos quando variancias homogeneas
Effect size: eta-squared
Chi-squared
Associacao entre categoria de query e citação
Effect size: Cramer's V
Mann-Whitney U
Comparar posição de citação (ordinal)
Effect size: rank-biserial r
Regressao logistica
Preditores de citação (schema, links, etc.)
Effect size: pseudo R-sq
Correlação Spearman
Associacao entre variaveis continuas
Effect size: rho
Benjamini-Hochberg
Correção para comparações múltiplas (FDR)
Effect size: p corrigido
Links e crosslinks publicados
Páginas ativas em alexandrecaramaschi.com85 páginas
Pesquisa e dados
/researchResearch Dashboard
/papers-roadmapPapers Roadmap
/roadmapDashboard Estratégico
/geo-orchestratorGEO Orchestrator
/geo-orchestrator/reportReport (esta página)
/metodologiaMetodologia GEO
/diagnósticoDiagnóstico Algorítmico
Conteúdo (25 insights + 10 educação)
/insights25 peças sobre GEO, IA e negócios
/educação10 tutoriais (Claude Code, Python, GitHub...)
/artefacto7 guias + 3 FAQs interativos
/ferramentas/geo-scoreGEO Score Calculator
/conteudosHub de conteúdo
APIs
/api/research/dataDados por vertical (autenticado)
/api/metricsMétricas ao vivo
/api/ebook-leadsLead capture