Alexandre Caramaschi

doi:10.2139/ssrn.6460680

ROADMAP TÉCNICO · v2.6

5 de 6 fases em produção

Atualizado 23 de julho de 2026

Stone D+69 pós-rebrand

GEO Score Checker
Ciência, matemática e uso real em cliente piloto

Visibility OS baseado em literatura acadêmica 2025-2026. 8 dimensões stage-aware, 4 LLMs em paralelo (gpt-4o-mini, claude-haiku-4-5, gemini-2.5-pro, sonar), fila assíncrona no Supabase, preference learning. Inferência estatística com Cohen/Fleiss kappa e bootstrap BCa. Aplicado ao vivo no rebrand Stone em 15-mai-2026.

Maturidade do roadmap

95% completo

As 8 dimensões que pontuam já somam 100. Última fase pendente: Causal Impact (BSTS) — destrava após acumular ≥3 snapshots do mesmo domínio.

8/8

Dimensões ativas

Retrieval → Entity Authority

1+6

Páginas por análise profunda

homepage 256 KB + rastreio interno priorizado

100

Pontos totais

exatos · sem caps artificiais

5/6

Fases em produção

6ª = Causal Impact (BSTS)

LLMs em paralelo

GPT, Claude, Gemini 3 Pro, Sonar

Heurísticas seed

+ aprendidas via cron diário 4h

Camadas FinOps

5 no código + 2 externas

US$ 0,04 / ~0,25

Custo por análise

free vs PRO v2 (24 sondas: marca + share of voice)

~45

Stone (piloto)

baseline NAIA · D+68 pós-rebrand

GUIA DE LEITURA

Como ler este roadmap

Antes de explorar a linha do tempo, entenda o vocabulário e as convenções visuais usadas nesta página.

O que significa cada status

Cada entrega carrega um dos três rótulos abaixo. As cores são consistentes em toda a página.

Entregue
Em progresso
Planejado

Rastreabilidade completa

Cada ponto do GEO Score é ancorável a um paper acadêmico (Cohen/Fleiss kappa, BSTS, bootstrap BCa) ou a um arquivo TypeScript real no repositório. Nenhuma dimensão é arbitrária.

Cinco de seis fases em produção

Das seis fases principais, cinco já estão ativas em produção e processando domínios reais. A sexta — Causal Impact (BSTS) — aguarda acúmulo de ao menos três snapshots do mesmo domínio para ativar a análise de séries temporais.

Legenda de cores e elementos

Verde indica entrega concluída; âmbar sinaliza aviso ou meta pendente; azul identifica o acento primário da interface. Barras e marcadores de linha do tempo seguem esta paleta de forma consistente.

SNAPSHOT2026-07-23

Números fidedignos · 23 de julho de 2026

Cada KPI é rastreável: 8 dimensões em score-calculator.ts, modelos LLM em llm-probes.ts, 10 heurísticas seed em preference-engine.ts, cliente Stone documentado em geo-stone/audits/www-stone-com-br/.

8/8

Dimensões ativas

Retrieval → Entity Authority

1+6

Páginas por análise profunda

homepage 256 KB + rastreio interno priorizado

100

Pontos totais

exatos · sem caps artificiais

5/6

Fases em produção

6ª = Causal Impact (BSTS)

LLMs em paralelo

GPT, Claude, Gemini 3 Pro, Sonar

Heurísticas seed

+ aprendidas via cron diário 4h

Camadas FinOps

5 no código + 2 externas

US$ 0,04 / ~0,25

Custo por análise

free vs PRO v2 (24 sondas: marca + share of voice)

~45

Stone (piloto)

baseline NAIA · D+68 pós-rebrand

O PROJETO COMO UM TODO

Balanço do último mês em números · 21-jun → 22-jul-2026

Enquanto o motor do checker ficou estável (zero commits em score-calculator, llm-probes e preference-engine na janela), o ecossistema ao redor dele avançou em volume. Números apurados por git log --no-merges sobre origin/master de cada clone. Nada estimado.

Commits no período

sem merges · 37 clones varridos

Repos ativos

de 37 clones git no ecossistema

PRs mergeados

156 no landing + 19 no worker

Cursos reformados

PRs #310-#318 em /educacao

Commits por repositório · top 6 de 33 ativos

landing-page-geo

156 PRs · educação + imprensa + entity

499

onclick-geo

frontend WordPress + guias-pilar

132

brasilgeo-worker

19 PRs · roadmaps + dossiês gated

122

GEO-Pesquisador

derivadas de mídia NotebookLM

papers *

coleta diária + calibração

Herreira *

monitor GEO 4 verticais

* inclui commits de coleta automática diária (cron); declarado, não descontado. Os 27 repos restantes somam os demais commits da janela.

Fatos rastreáveis da janela

670+termos no glossário SEO/GEO (#310)
531testes no geo-orchestrator (Sprint 24)
20crosslinks editoriais de imprensa (22-jul)
W20-W27relatórios semanais Stone versionados
3 passadasauditoria adversarial da entity CSO Nuvini
18 móduloscurso SEO Programático reescrito (#312)

No checker em si, a janela rendeu três entregas: FinOps de jobs auditável (jobs-finops.ts, 03-jul), refresh visual de /ferramentas/geo-score (14-jul) e a credencial CSO Nuvini propagada na entity (20-jul).

ÚLTIMOS MESES

O que andou acontecendo

Um resumo operacional semana a semana — selecione o mês para navegar entre os destaques.

Semana 26 · 22-28/06

/admin em 5 ondasVerdade dos dadosQuick wins no blog WP

O painel /admin recebeu cinco ondas de frontend e dados (PRs #195-#225), incluindo a auditoria de verdade-dos-dados que passou a validar cada métrica exibida contra a origem real. No blog WordPress, entrou a engine idempotente de quick wins GEO. O incidente de 504 no /admin foi diagnosticado até a causa raiz (pooler do Supabase dessincronizado após rotação de senha) e resolvido via restart pela API de plataforma.

Semana 27 · 29/06-05/07

Citação viva cross-LLMEfeito halo de imprensaIndexNow

Entrou em operação o pipeline de citação GEO viva: medição recorrente de quanto cada engine cita a marca, com baseline honesto por engine na estreia (Gemini 0%, Perplexity 48%). Em paralelo, o ciclo de imprensa 'efeito halo' conectou coberturas externas a IndexNow e crosslinks internos, e o backlog mestre do site Onclick 2026 foi consolidado com a fundação técnica priorizada antes do conteúdo.

Semana 28 · 06-12/07

33 repos higienizadosSprint 24 · 531 testesNasce o GEO-Pesquisador

Semana de infraestrutura: higienização de 33 repositórios em 5 waves e onda de governança em 08-jul (avisos de confidencialidade, licenças proprietárias, bumps de dependências) aplicada em vários repos no mesmo dia. O geo-orchestrator fechou o Sprint 24 com 531 testes e suporte a 13 modelos. O billing Anthropic/xAI foi auditado conta a conta. E nasceu o repo GEO-Pesquisador, ponte Claude ↔ NotebookLM que terminaria o mês com 75 commits de pipeline de mídia.

Semana 29 · 13-19/07

6 cursos reformadosGlossário 670+ termosPRs #310-#318

Reforma em massa da esteira /educacao, com waves paralelas de pesquisa e frontend: SEO Programático reescrito em 18 módulos (#312), SEO+GEO refeito em 5 ondas (#313), Autoridade Temática com stack visual (#311), E-E-A-T revisado com metáforas e casos reais (#315), CRO aprofundado até 27 módulos (#316/#319) e o glossário SEO/GEO expandido para 670+ termos em arquitetura data-driven (#310). Fora da educação: 5 páginas de roadmap re-narradas a partir de 1.418 commits de 33 repos, e o dossiê Postz/Rankz/Wordz publicado em área gated.

Semana 30 · 20-22/07

Entity: CSO Nuvini20 crosslinks de imprensaAuditoria em 3 passadas

Atualização de entity em todo o domínio: a credencial de Alexandre passou a 'CSO da Nuvini · Founder da Brasil GEO', propagada em landing e brasilgeo-worker com auditoria adversarial em três passadas para garantir consistência. A cobertura de imprensa da nomeação (Startups.com.br, IT Forum) foi destacada e 20 crosslinks editoriais foram inseridos em artigos GEO e Q&A do worker. Fechando o mês, a wave de pesquisa versionou o corpus arXiv 2026 com 32 papers verificados por abstract (PR #322), destilado na seção de fronteira acadêmica deste roadmap.

Checker no mês · motor estável, FinOps auditável

Zero commits no motorjobs-finops.tsUI refresh 14-jul

O motor de score não recebeu nenhum commit na janela: score-calculator.ts, llm-probes.ts e preference-engine.ts seguem intocados, o que mantém todos os KPIs desta página válidos contra o código. As entregas do período foram em volta do motor: jobs-finops.ts (03-jul) trouxe séries de custo multi-fonte honestas com integridade como blocker; a página /ferramentas/geo-score ganhou refresh visual com showcase de dimensões e consenso de engines (14-jul); e a credencial CSO Nuvini entrou na entity da ferramenta (20-jul).

Snapshot 22-jul · números fidedignos

1.213 commits33 repos ativos175 PRs mergeados

Balanço da janela 21-jun → 22-jul medido por git log --no-merges: 1.213 commits em 33 dos 37 repos do ecossistema. O landing-page-geo dominou com 499 commits e 156 PRs mergeados (#115 → #319); o brasilgeo-worker somou 122 commits e 19 PRs (#24 → #44). No piloto Stone, o monitoramento seguiu automático: rascunhos semanais W20-W27 e 4 capturas quinzenais de conteudo.stone.com.br versionadas (15-mai, 01-jun, 15-jun, 01-jul). O delta causal segue pendente da aplicação dos fixes de Schema do lado Stone.

EM PRODUÇÃOupdated 2026-07-23

Casos reais usando o checker

SMOKE TEST · 5 DOMÍNIOS

O sistema discrimina marca global vs nicho

anthropic.com: 60 · Generation Exposure 19,7/20
vercel.com: 61 · bubble baixo
magazineluiza.com.br: 62 · forte em PT-BR
stripe.com: 64 · maior do batch
brasilgeo.ai: 58 · exposure 9,8/20 (nicho)

CLIENTE PILOTO · BASELINE NAIA 25-MAI

Stone (D+69 pós-rebrand · baseline ~45)

Auditoria NAIA (25-mai) diagnosticou 64 páginas de stone.com.br: 32 com zero JSON-LD, 32 só com FAQPage, 0 declaram Organization/WebSite na home. Baseline ~45/100 · 25 pts atrás do Mercado Pago. Monitoramento seguiu automático: 4 capturas quinzenais de conteudo.stone.com.br versionadas (15-mai, 01-jun, 15-jun, 01-jul) e rascunhos semanais automáticos W20-W27 no repo. A matéria-prima de ≥3 snapshots para o Causal Impact já existe; falta consolidá-la no formato do checker. Delta causal ainda não calculado: os fixes de Schema seguem pendentes do lado Stone.

Mercado Pago

PagBank

~45

Stone (hoje)

FASE 4 · MULTI-GEO

hugging-face.co em 3 geos

Score Geo 7,9/10. Severidade low. Cobertura BR 3/4 · US 3/4 · EU 3/4. Validação de filter bubble regional via pairwise agreement entre Brasil, Estados Unidos e Europa.

24 sondas LLM por job (12 marca + 12 share of voice) · ~US$ 0,2 adicional/job

CLIENTE PILOTO

Stone: do baseline à meta

Auditoria NAIA de 25 de maio de 2026, ainda o baseline vigente em 22 de julho. O monitoramento seguiu automático (4 capturas quinzenais versionadas de 15-mai a 01-jul e rascunhos semanais W20-W27), mas o delta causal pós-rebrand ainda não foi calculado: depende da aplicação dos fixes de Schema.org do lado Stone e da consolidação das capturas no formato do checker.

GEO Score — visão comparativa

Mercado Pago

0 / 100

Referência do setor

PagBank

0 / 100

Segunda posição

StonePILOTO

0 / 100

Baseline atual — cliente piloto

Gap em relação ao líder

0pontos abaixo do Mercado Pago

Baseline: ~45/100. Meta imediata: alcançar 60 pontos com correções de Schema.org e exposição.

Próximos passos técnicos

Aplicar fixes de Schema.org (sameAs, Organization, Product)
Acumular ao menos 3 snapshots para ativar fase Causal Impact
Medir delta após rebrand com análise BSTS
Comparar resultados nos 3 geos (BR, US, EU)

Nota metodológica: o delta causal pós-rebrand ainda não foi calculado. A análise BSTS requer séries temporais com ao menos três pontos de medição do mesmo domínio. Os números acima refletem o baseline estático de mai-2026.

POR QUE EXISTE

Três leis que mudaram o jogo

A literatura 2025-2026 sobre GEO derrubou três premissas que moldavam praticamente toda ferramenta de SEO do mercado.

Score é série temporal, não número único

Cada estágio da pipeline generativa precisa ser medido separadamente. Otimizações na geração podem degradar o retrieval.

SAGEO Arena · arXiv:2602.12187

Cada engine é uma realidade informacional distinta

ChatGPT, Claude, Gemini e Perplexity retornam fontes e narrativas diferentes para a mesma query. A métrica primária é a divergência entre engines.

Answer Bubbles · arXiv:2603.16138

O alvo real é Exposure + Faithful Credit + Causal Impact

Não basta aparecer. A IA precisa citar corretamente, e precisamos saber se uma mudança no site causou o ganho.

CC-GSEO-Bench · arXiv:2509.05607

O GEO Score Checker v2.0 foi desenhado a partir dessas três leis. Cada ponto do score é rastreável a um paper ou métrica validada publicamente.

COMO FUNCIONA

O motor por dentro: pipeline stage-aware e fluxo assíncrono

O GEO Score não é um número único: cada estágio do motor generativo recebe uma dimensão própria, medida de forma independente. Abaixo você vê como os três estágios se encadeiam e como uma análise percorre todo o fluxo assíncrono até chegar ao score final.

1. Pipeline stage-aware

Atenção: otimizar a geração pode degradar o retrieval. Por isso o GEO Score é medido estágio a estágio — não como número único.

Retrieval

O site é alcançável e legível por crawlers de IA (GPTBot, ClaudeBot, Google-Extended, PerplexityBot, CCBot)?

Retrieval Fitness — 15 pts

Reranking

Sinais estruturais (JSON-LD válido, Schema.org, hierarquia de headings, canonical+OG) colocam o site no top-K das fontes?

Reranking Fitness — 15 pts

Generation

A IA cita o site em respostas sintetizadas, com fidelidade ao que ele declara?

Generation Exposure + Faithful Credit — 35 pts

Sequência de avaliação: Retrieval (15 pts) → Reranking (15 pts) → Generation (35 pts). Passe o cursor ou use Tab para ver o detalhe de cada estágio.

Diagrama 2 de 2

2. Fluxo assíncrono end-to-end

A análise é assíncrona: o frontend faz polling a cada 2,5 s enquanto o worker processa em fases — estática, compreensão por LLMs e validação de entidade — antes de entregar o score final.

UsuárioInforma o domínio no formulário

POST /api/geo-check

Fila Supabase

Vercel Cron

Claim atômico

Fase estática profunda (30%)

4 LLMs em paralelo

gpt-4o-mini

claude-haiku-4-5

gemini-2.5-pro

sonar

Entity (90%)

score-calculator (100%)

Frontend (polling)

30% — Fase estática profunda (30%)

60% — 4 LLMs em paralelo (60%)

90% — Entity (90%)

100% — score-calculator (100%)

Sequência completa: Usuário → POST /api/geo-check → validação SSRF → fila Supabase → Vercel Cron → claim atômico → fase estática (30%) → 4 LLMs em paralelo (60%) → Wikidata + Google KG (90%) → score-calculator (100%) → polling do frontend a cada 2,5 s.

Etapa atual: Usuário

ANATOMIA DO SCORE

As 8 dimensões que somam 100

Cada dimensão captura um aspecto diferente da presença de um site nos motores de IA generativa. Os pesos refletem a força causal medida nos estudos mais recentes — e somam exatamente 100 pontos, sem tectos artificiais.

Retrieval Fitness: 15 pontos — Site alcançável e legível por crawlers de IA. (Fonte: SAGEO Arena (arXiv:2602.12187))
Reranking Fitness: 15 pontos — Sinais estruturais colocam o site no top-K das fontes. (Fonte: SAGEO Arena (arXiv:2602.12187))
Generation Exposure: 20 pontos — Taxa com que a IA cita o site em respostas sintetizadas. (Fonte: CC-GSEO-Bench (arXiv:2509.05607))
Faithful Credit: 15 pontos — A IA cita o site com fidelidade ao que ele declara. (Fonte: CC-GSEO-Bench (arXiv:2509.05607))
Answer Bubble Divergence: 10 pontos — Quão divergentes são as respostas dos 4 engines sobre a marca. (Fonte: Answer Bubbles (arXiv:2603.16138))
Geo-Personalization Robustness: 10 pontos — Consistência da resposta entre BR, US e EU. (Fonte: Geo-Pers Bias (WSDM 2026))
Static Readiness: 10 pontos — HTTPS, TTFB, title e meta description em faixa ideal. (Fonte: Baseline técnico)
Entity Authority: 5 pontos — Entidade confirmada em Wikidata + Google Knowledge Graph. (Fonte: Anchor-Entity Effect + CC-GSEO-Bench)

Passe o cursor ou use Tab para explorar cada dimensão.

Composição total0 pontos

Retrieval Fitness (15)Reranking Fitness (15)Generation Exposure (20)Faithful Credit (15)Answer Bubble Divergence (10)Geo-Personalization Robustness (10)Static Readiness (10)Entity Authority (5)

Causal ImpactEm breve · 0 pts

Requer >=3 snapshots do mesmo domínio (BSTS). É a 6ª e última fase pendente.

ANATOMIA DO SCORE

Como os 100 pontos se distribuem

Pesos exatos extraídos de score-calculator.ts: a soma dá 100 em pontos inteiros, sem caps artificiais. Passe o mouse (ou o foco) em um segmento para destacar a dimensão correspondente na lista.

Retrieval Fitness15 pts

Os crawlers de IA chegam e leem o site: robots.txt, bots de IA, sitemap, llms.txt, HTML com SSR

Reranking Fitness15 pts

O conteúdo sobrevive ao reranker: JSON-LD válido, entidade canônica, hierarquia H1/H2, canonical + OG

Generation Exposure20 pts

Taxa de reconhecimento e citação pelos engines reais, com confiança média e menção do domínio

Faithful Credit15 pts

Quando citado, os engines falam a verdade sobre a marca: acurácia factual, sem alucinações

Answer Bubble Divergence10 pts

Divergência entre engines (invertida: consenso alto pontua mais), medida com Fleiss kappa

Geo-Personalization Robustness10 pts

Filter bubble regional: 4 provedores × 3 geos (BR · US · EU), cobertura e consistência narrativa

Static Readiness10 pts

Baseline técnico: HTTPS, TTFB, title, meta description e o sinal de frescor detalhado abaixo

Entity Authority5 pts

Autoridade de entidade: match Wikidata, Google Knowledge Graph e validação de sameAs

Sinal de frescor: 2 pts graduados dentro do Static Readiness

O checker lê o lastmod do sitemap (ou o header Last-Modified) e credita pontos pela idade da atualização mais recente. A literatura que embasa o critério reporta lift de aproximadamente 3,2x na taxa de citação para conteúdo recém-atualizado. É a parte do score que decai sozinha se o site parar de publicar.

≤ 90 dias

≤ 180 dias

1,5

≤ 365 dias

> 365 dias

0,5

Pontos por idade do último lastmod. Sem sinal detectável, o item fica em 0,5.

FUNDAÇÃO ACADÊMICA

Cada ponto vem de um paper

As 8 dimensões do GEO Score são ancoradas em literatura acadêmica 2025-2026; clique em uma dimensão para revelar a lógica.

SAGEO Arena

arXiv:2602.12187

Dimensões fundamentadas

CC-GSEO-Bench

arXiv:2509.05607

Dimensões fundamentadas

Answer Bubbles

arXiv:2603.16138

Dimensões fundamentadas

Geo-Pers Bias in News Search

working paper / baseline

Dimensões fundamentadas

Anchor-Entity Effect

working paper / baseline

Dimensões fundamentadas

Baseline técnico condensado

working paper / baseline

Dimensões fundamentadas

CC-GSEO-Bench — dimensão futura

Não pontua ainda

6ª fase pendente

CORPUS 2026

A fronteira acadêmica, verificada em 22-jul

A wave de pesquisa de julho versionou um corpus de 32 papers arXiv de 2026 sobre GEO, cada um verificado por existência e abstract via API do arXiv (os PDFs completos ainda não foram lidos; os números abaixo vêm dos abstracts, e o próprio corpus manda ler antes de citar em paper). Os nove mais relevantes para o score, e com o que cada um dialoga no checker:

arXiv:2607.14035

Optimizing Visibility in Generative Engines (survey 2023-2026)

Revisa 45 estudos e modela GEO como pipeline estocástico parcialmente observável, com vetor de visibilidade em 4 camadas: descobribilidade, citação, absorção e resultado econômico. Nenhuma técnica revisada demonstra efeito causal estável cross-plataforma.

No checker: valida o desenho stage-aware do pipeline

arXiv:2606.20065

GEO at Scale (Ranqo)

100 mil ou mais respostas e 100+ marcas: presença de 73% para marcas globais, 44% mid-market e 11% nicho (degraus de ~30 pp). 78% das citações vão a sites corporativos; sentimento flipa 6,7x mais que a menção.

No checker: baseline externo para a escada global vs nicho do smoke test

arXiv:2604.25707

From Citation Selection to Citation Absorption

Separa ser selecionado de ser absorvido pela resposta. Dataset com 602 prompts, 3 engines e 21.143 citações válidas em 72 features. Contar citações é KPI insuficiente.

No checker: Generation Exposure + Faithful Credit

arXiv:2604.07585

Don't Measure Once

A natureza probabilística dos engines quebra a medição pontual: visibilidade deve ser reportada como distribuição com variância. Screenshot único não é evidência.

No checker: justifica o IC honesto via bootstrap BCa do checker

arXiv:2605.25517

What Gets Cited

252 mil trials pareados em 6 LLMs e 18 fatores: relevância temática e posição na lista são os maiores drivers de primeira citação; preço explícito e timestamp recente ajudam; formatação pura tem pouco impacto.

No checker: reforça o sinal de frescor do Static Readiness

arXiv:2603.29979

GEO-SFE: Structural Feature Engineering

Engenharia estrutural em 3 níveis (macro, meso e micro) rende +17,3% de taxa de citação e +18,5% de qualidade subjetiva em 6 motores.

No checker: Reranking Fitness (hierarquia e chunking)

arXiv:2603.09296

AgentGEO

Diagnóstico e reparo de falhas de citação: +40% relativo na taxa de citação modificando só 5% do conteúdo. Alguns documentos não são salváveis por otimização.

No checker: espírito do plano de ação priorizado do checker

arXiv:2601.00912

The Discovery Gap

Gap de 30:1 entre reconhecimento e descoberta orgânica no ChatGPT: scores GEO não correlacionam com descoberta. Medir os dois separadamente.

No checker: limite honesto do que o score prevê

arXiv:2606.04362

Disentangling AEO

Caso glasp.co: crescimento bruto de 5,7x vira efeito modelado de 1,82x (IC95 1,31-2,54) quando o controle on-domain é descontado; placebo p=0,16, sugestivo e não conclusivo.

No checker: o mesmo rigor que o Causal Impact pendente exigirá

GROUND TRUTH PRÓPRIOrepo papers · coleta diária · última em 22-jul-2026

Além da literatura, o projeto mede citação cross-LLM com dado próprio: a primeira janela de 90 dias fechou em 21-jul. As 16 entidades-controle fictícias (marcas que não existem) registraram zero menções, ou seja, especificidade de 100% e taxa de falso positivo 0,0 no protocolo. A calibração dos pesos das 8 dimensões contra esse ground truth ainda não rodou sobre dados reais; o AUROC 0,81 citado na metodologia vem de simulação e não é resultado real.

Queries executadas

janela fechada de 90 dias (23-abr a 21-jul)

Respostas com citação

taxa geral 35,3% (IC95 34,9-35,6)

Entidades monitoradas

111 reais (79 BR) + 16 controles fictícias

Rodadas de coleta

41 dias coletando · 25.103 análises de contexto

A MATEMÁTICA, NA MÃO

Mexa nas fórmulas: do título ao intervalo de confiança

Cada número do GEO Score tem uma fórmula por trás. Arraste os controles abaixo para ver como cada decisão de design — tamanho do título, velocidade do servidor, número de réplicas — se transforma em pontuação.

Função triangular — tamanho do título

Em vez de "aprovado/reprovado", dá crédito parcial e contínuo: títulos entre 30-65 caracteres recebem pontuação máxima; fora disso a curva cai suavemente.

score = 1,000

Tamanho do título: 50 caracteres

Fator de tempo de resposta — TTFB

Rastreadores de IA abandonam requisições lentas. A curva premia TTFB abaixo de 500 ms e penaliza acima de 1.500 ms, chegando a zero em 3 s.

fator = 1,000

TTFB: 400 ms

Intervalo de confiança BCa 95%

O Bias-Corrected and Accelerated bootstrap (Efron, 1987) fornece um IC mais honesto que reportar um número cravado. Surge quando o motor executa 5 ou mais réplicas estocásticas e compensa assimetrias na distribuição amostral.

74[69, 78]

score pontual e IC 95% BCa

Ilustração: score pontual 74 com banda de confiança de 95% entre 69 e 78 (width = 9 pontos). Quanto maior o número de réplicas, mais estreita tende a ser a banda.

Fleiss kappa — concordância corrigida por acaso

Quando múltiplos motores de IA avaliam o mesmo critério, o acordo bruto superestima a concordância real. O Fleiss kappa desconta o que seria esperado por acaso.

Motor A

sim

Motor B

sim

Motor C

sim

Motor D

não

Acordo bruto

0,83

Fleiss kappa

0,687

substancial

3 de 4 motores concordam em 'sim'. O acordo bruto parece alto (0,83), mas o Fleiss kappa desconta a concordância que ocorreria por acaso.

Escala Landis-Koch

< 0,00pobre

0,00 – 0,20leve

0,21 – 0,40razoável

0,41 – 0,60moderado

0,61 – 0,80substancial

0,81 – 1,00quase perfeito

FORMULÁRIO

As fórmulas, sob demanda

Todas as 7 fórmulas do score em cartões colapsados — expanda apenas o que precisar.

4 ENGINES, 1 VERDADE?

Quatro LLMs em paralelo, divergência medida e custo sob controle

O GEO Score Checker consulta simultaneamente quatro grandes modelos de linguagem para obter a narrativa que cada engine constrói sobre um domínio. A divergência entre essas visões é tão informativa quanto a resposta individual — e toda a operação é blindada por sete camadas de controle de custo.

4 LLMs em paralelo — corrida das probes

As quatro chamadas saem ao mesmo tempo. A resposta de cada engine chega em janelas de latência distintas, refletindo diferenças de infraestrutura e modelo — não de informação.

OpenAI

gpt-4o-mini

Aguardando...

US$ 0,15 / 0,60 por 1M tokens (entrada/saída)

structured output json_schema strict

Anthropic

claude-haiku-4-5

Aguardando...

US$ 0,80 / 4,00 por 1M tokens (entrada/saída)

schema explícito no system prompt

Google

gemini-2.5-pro

Aguardando...

US$ 1,25 / 5,00 por 1M tokens (entrada/saída)

responseSchema

Perplexity

sonar

Aguardando...

US$ 1,00 / 1,00 por 1M tokens (entrada/saída)

único com web_search nativo + user_location.country

Todas as chamadas são enviadas com temperature=0 e top_p=1 — máxima determinismo possível por provedor. Ainda assim, cada engine representa uma realidade informacional distinta construída durante o treinamento. Por isso medimos a divergência entre as quatro respostas: ela revela quanto a narrativa da marca está alinhada (ou fragmentada) no ecossistema de IAs.

Divergência entre respostas — coeficiente de Dice

Cada par de respostas é comparado por similaridade de Dice sobre bigramas de caracteres. O grafo abaixo mostra todos os pares; a espessura e a cor da aresta indicam o grau de concordância.

FÓRMULA — Dice similarity sobre bigramas de caracteres
diceSimilarity(a, b) = 2 · |bigrams(a) ∩ bigrams(b)| / (|a| − 1 + |b| − 1)Exemplos:similarity("OpenAI", "Open AI") ≈ 0,73 · similarity("Brasil GEO", "BrasilGEO") ≈ 0,89

Alta similaridade (≥ 0,70)Similaridade média (0,60 – 0,69)Baixa similaridade (< 0,60)

Baixa divergência

Engines convergem — a narrativa da marca está sólida e consistente no ecossistema de IAs. Menor risco de resposta conflitante para o usuário final.

Alta divergência

Engines divergem — há ambiguidade informacional explorável. O GEO Score penaliza e indica quais engines precisam de atenção editorial prioritária.

v2.2 — Fleiss kappa

A versão 2.2 do Score anexará Fleiss kappa para penalizar acordância por acaso entre os engines — refinando a medida de consenso real.

FinOps — defesa em profundidade

Cada job percorre sete camadas de controle antes de qualquer chamada paga chegar aos provedores. O funil abaixo mostra a sequência e o custo real por análise comparado ao teto diário.

Gate de triagem estática

Pula 4 + 12 chamadas pagas se o site estiver fora do ar, se robots.txt bloquear tudo ou se o HTML tiver menos de 500 bytes.

Gate por job

Orçamento diário de US$ 5 por instância de análise.

Rate limit por usuário PRO

No máximo 5 análises por dia por conta PRO.

Cache 24 horas por domínio

Resultado em cache por 24 horas; domínio já analisado não gera novas chamadas às APIs.

Spend Management Vercel

Teto configurado na plataforma Vercel antes de qualquer chamada de função.

Usage limits nas APIs LLM

Limites de gasto configurados diretamente nos painéis OpenAI, Google e Anthropic.

Tracking unificado finops_calls

Tabela finops_calls registra provedor, tokens e custo de cada chamada para auditoria contínua.

Job processado com segurança

Custo estimado por análise

Plano Free (análise estática + compreensão)US$ 0,00

Plano PRO (com Multi-Geo, 12 chamadas extras)US$ 0,00

Teto diário (gate Camada 1)US$ 5,00

Wikidata + Google Knowledge Graph = US$ 0,00 (APIs públicas e gratuitas). O custo real do job deriva exclusivamente das chamadas aos quatro LLMs.

Modelos LLM em produção · pricing canônico

Atualizado em 23 de julho de 2026. Preço por 1 milhão de tokens. Gemini foi atualizado de 2.5-flash para 2.5-pro em 18-abr-2026 para elevar a qualidade do structured output. Cada probe espelha custo+tokens em finops_calls (Supabase) para FinOps unificado.

Provider

Modelo

Input / 1M

Output / 1M

Observação

OpenAI

gpt-4o-mini

US$ 0,15

US$ 0,60

structured output json_schema strict

Anthropic

claude-haiku-4-5

US$ 0,80

US$ 4,00

schema explícito em system prompt

Google

gemini-2.5-pro

US$ 1,25

US$ 5,00

responseSchema · preço real do Pro (≈16x o Flash), reconciliado 21-jun

Perplexity

sonar

US$ 1,00

único com web_search nativo + user_location.country

ARQUITETURA

A stack, em blocos

Cada componente do checker organizado por responsabilidade — o fluxo assíncrono end-to-end está animado na seção acima.

▲ Runtime & deploy◆ Dados & fila■ Workers & autenticação● LLM & probes◇ FinOps & custo◎ Estatística & calibração◉ Robustez, SSRF & triagem○ Cache & rate limit

Runtime & deploy

Runtime

Next.js 16 (App Router) · Node runtime em todas as API routes

Dados & fila

Banco / Fila

Supabase PostgreSQL (tabela geo_analysis_jobs). Leva 2 (commit 0b63a0c) instalou 4 RPCs: claim_next_geo_job (FOR UPDATE SKIP LOCKED + attempts cap 3), increment_geo_job_cost (custo atômico), geo_budget_committed_usd (gate anti-TOCTOU: gasto real + estimado dos jobs em voo, EST_PER_JOB_USD=0,13) e geo_daily_spend_usd (gasto real do dia). Posse por locked_by em complete/fail/progress, coluna tier dedicada, recovery de stale em 2min, TTL 7 dias

Parser

3 tentativas: JSON.parse direto → regex ```json fence → regex {…}. Schema normalizado com type guards

Workers & autenticação

Worker

Vercel Cron chamando POST /api/geo-check/worker a cada minuto, 1 job por invocação, maxDuration=60s

Autenticação worker

Bearer token via env CRON_SECRET ou GEO_WORKER_SECRET

LLM & probes

LLM probes

4 fetches paralelos: gpt-4o-mini · claude-haiku-4-5 · gemini-2.5-pro · sonar. Todos com temperature=0, top_p=1, structured output JSON schema onde suportado

Preference engine

Tabela geo_preferences_learned com 10 heurísticas seed baseadas em literatura. filterApplicable() cruza com engines que participaram da análise

FinOps & custo

FinOps unificado

trackProbeCall espelha cada probe em finops_calls (Supabase) — fire-and-forget, nunca bloqueia. Permite agregação cross-projeto com geo-finops

FinOps de jobs

jobs-finops.ts (03-jul-2026), funções puras testáveis sem banco: computeTierBreakdown (custo e volume por tier com window_days explícito), buildDailySeries (série diária que preenche zeros em dias sem jobs, sem esconder gaps), computeFailedAlert (critical com 3 ou mais falhas em 24h, expõe last_error cru) e buildConclusiveReading (leitura conclusiva no topo do painel: falha sistêmica > ocioso > saudável). 15 casos em jobs-finops.test.ts

Estatística & calibração

Inferência estatística

inference.ts puro TS: cohenKappa, fleissKappa, bootstrapBcaCI, normalCdf/Ppf (Acklam), reliabilityBin. PRNG seedable (Mulberry32) para testes determinísticos

Calibração

score_calibration_inputs (SQLite no Papers) + scripts/calibrate_score.py (regressão logística, 5-fold CV AUROC ~0.81 em simulação N=200)

Robustez, SSRF & triagem

SSRF protection

Leva 1 (commit d668b33): checkSSRF resolve TODOS os endereços (lookup all) e bloqueia em fail-closed — IPv4 privado/CGNAT + IPv6 loopback/ULA (fc00::/7)/link-local (fe80::/10)/IPv4-mapped (::ffff:). fetchWithTimeout usa redirect manual e re-valida o host de cada salto, fechando DNS-rebind e redirect para 169.254.169.254. Flags GEO_SSRF_* com default seguro

Gate de triagem

Leva 1: triageStatic pula as 4+12 chamadas pagas quando o site está morto, bloqueia todos os bots (robots) ou devolve HTML < 500 bytes — as dimensões de IA ficam bloqueadas com lockReason honesto, sem nota baixa enganosa e sem custo. Flags GEO_TRIAGE_* (default ligado)

HTML cap

MAX_HTML_BYTES=30720 (30KB) — suficiente para head + hierarquia inicial, reduz risco de bomba de payload

Cache & rate limit

Cache

24h por domínio via findCachedResult; retorna job antigo se status='done' e created_at > NOW() - 24h

Rate limit / Budget

isBudgetExceeded consulta SUM(cost_usd) do dia em geo_analysis_jobs; bloqueia novas análises async quando ≥ GEO_CHECK_DAILY_BUDGET_USD (default 5)

Todas as 16 entradas acima são rastreáveis ao código em produção. A suíte do repositório soma hoje 136 arquivos de teste (os badges "360" e "380" dos highlights de junho eram os totais da época). Inferência estatística via inference.ts (Cohen kappa, Fleiss kappa, bootstrap BCa). SSRF e gate de triagem entregues na Leva 1 da robustez — suite 360/360 casos.

LINHA DO TEMPO

Sete entregas, uma pendente

Cada fase ampliou a capacidade de mensuração. A ordem reflete a evolução técnica — de análise estática booleana até inferência causal com séries temporais.

Baseline v1
Entregue
Análise estática síncrona, 6 dimensões booleanas.
Stage-Aware Retrofit
Entregue
Pesos contínuos, crédito parcial, 8 dimensões stage-aware.
Multi-Engine Async
Entregue
Pergunta real aos 4 LLMs; mede exposição, fidelidade e bubble.
Entity Disambiguation
Entregue
Cross-check de entidade em Wikidata + Google Knowledge Graph.
Geo-Personalization
Entregue
12 chamadas (4 LLMs × 3 geos: BR, US, EU); robustez regional.
Preference Learning
Entregue
Heurísticas extraídas do histórico via cron diário.
Inferência Estatística
Entregue
Cohen/Fleiss kappa, bootstrap BCa, bridge com o projeto Papers.
Causal Impact (BSTS)
Planejado
Requer >= 3 snapshots do mesmo domínio. Última fase pendente.

ENTREGAS

Sete fases, sem rolagem infinita

Abra apenas as fases que lhe interessam — cada cabeçalho mostra o progresso sem exigir leitura de todas as tarefas.

53 tarefas entregues de 59

Dados extraídos do código-fonte em 21 de junho de 2026 e reauditados em 22 de julho de 2026: o motor de score não recebeu commits na janela, então cada status permanece válido. Cada tarefa "planejada" tem rastreabilidade a um workstream ativo no plano de robustez ou à Fase 5.5 de inferência estatística.

PREFERENCE ENGINE

As 10 heurísticas seed, na íntegra

Cada regra vive em geo_preferences_learned com source='seed', baseada em literatura, e é cruzada com os engines que participaram da análise antes de entrar nas recomendações. Ordenadas por lift médio estimado em pontos de score. O cron diário das 4h promove novas regras a learned apenas com amostra suficiente.

Google

Faithful Credit

88%

+10

Reivindicar o Knowledge Panel via Business Profile + Search Console + Wikidata

OpenAI

Generation Exposure

85%

+8,5

Criar verbete na Wikipedia EN e vincular via sameAs no JSON-LD

Anthropic

Generation Exposure

80%

Adicionar 3 ou mais URLs em sameAs (LinkedIn, Crunchbase, Wikidata)

Todos

Reranking Fitness

95%

Validar todo JSON-LD em validator.schema.org antes de publicar

Todos

Answer Bubble Divergence

90%

+5,5

Criar entrada no Wikidata com as propriedades P31, P856 e P17

Perplexity

Generation Exposure

75%

Manter o lastmod do sitemap atualizado e publicar conteúdo mensalmente

Todos

Reranking Fitness

82%

+4,5

Usar exatamente 1 H1 e 3 ou mais H2 por página

OpenAI

Generation Exposure

70%

Publicar press releases em PR Newswire, Business Wire e domínios .gov

Google

Geo-Personalization

65%

Adicionar hreflang para pt-BR e en

Todos

Retrieval Fitness

78%

+3,5

Configurar CDN e cache para TTFB abaixo de 500 ms globalmente

Confiança e lift vêm da literatura (não de amostra própria): todos os seeds nasceram com sample_size=0 e só o batch noturno, com 30 dias ou mais de dados reais, promove variações a source='learned'.

DIVISÃO DE TRABALHO

O que eu faço × o que exige você

Transparência total sobre onde acaba a automação e começa a decisão humana.

10automatizáveis

9manuais

Claude Code

Re-rodar cohort Stone quinzenalmente
Acumular 3 snapshots dos 5 domínios do smoke test
Implementar BSTS / CausalImpact em inference.ts
Dashboard de curadoria de heurísticas em /admin/geo-prefs
Testes unitários de score-calculator e brand-prompt
Scripts de smoke test para as 4 APIs de LLM
Validar build com npx next build a cada mudança
Curl de teste nas rotas após deploy para medir latência e custos
Monitorar geo_jobs_finops e alertar via WhatsApp em spike
Gerar relatórios PDF automáticos (lead magnet da fase 4)

Você

Aplicar fixes da auditoria NAIA Stone
Decisões estratégicas de priorização Stone
Aprovar heurísticas aprendidas pelo batch job
Validar visualmente respostas de LLMs suspeitas
Responder leads qualificados no WhatsApp
Criar verbete da Brasil GEO no Wikidata
Publicar press releases em domínios .edu e .gov
Configurar Spend Management no Vercel
Configurar usage cap mensal nas 4 dashboards LLM

RIGOR

Como sabemos que estamos medindo certo

Medir compreensão por IA é difícil porque LLMs são não-determinísticos; veja as garantias que elevam a régua do GEO Score Checker.

0de 14 garantias já entregues

Todos os 4 provedores são chamados com temperature zerada. Em ~95% dos casos a mesma query retorna JSON idêntico entre runs. Os 5% restantes variam em ~1-2 palavras, que o pairwise agreement + Fleiss kappa absorvem.
OpenAI json_schema strict, Google responseSchema, Anthropic prompt explícito. Zero parsing de texto livre — ou o LLM retorna o schema, ou falha visivelmente.
Faithful Credit compara name vs <title> e proposition vs meta description. Alucinações capturadas quando divergem do que o próprio site afirma.
4 engines independentes reduzem vieses específicos. Pairwise agreement elimina rajadas de um único modelo.
O prompt força o LLM a admitir desconhecimento em vez de chutar. Exemplos positivos e negativos no próprio prompt.
Cada LLM devolve hallucinationFlags[] listando afirmações incertas. Contadas e penalizadas na dimensão Faithful Credit.
cost_usd individual em evaluations[]; soma em geo_analysis_jobs.cost_usd. trackProbeCall espelha em finops_calls (cross-projeto).
Corrige pairwise agreement bruto pelo esperado por chance. Cada campo livre vira shingle canônico → rótulo nominal → kappa Landis-Koch.
Bias-Corrected and Accelerated (Efron 1987). Score = 74 [69, 78] em vez de cravado, quando há ≥5 réplicas.
score_calibration_inputs + scripts/calibrate_score.py. Logit com 5-fold CV AUROC ~0,81 em simulação N=200. Pesos calibrados quando dataset real maturar.
AUTOMATIZÁVEL: rodar mesmo domínio 10× e calcular variância dos scores por dimensão. Meta: std < 1 pt total.
SEMI-MANUAL: 20 marcas famosas + 20 desconhecidas, comparar contra anotação humana de 'reconhecimento factual'. Meta: accuracy > 85%.
AUTOMATIZÁVEL: gravar model + version em cada probe. Alerta quando provider muda internamente (custo/tokens médios saltam). Invalida comparação histórica.
Implementado em 06-abr (commit 4f24fc2). Cada job armazena rawText de cada probe; UI expõe via /api/geo-check/[id]?evidence=1.

FINOPS

Sete camadas contra estouro de custo

Cada análise atravessa uma escada de bloqueios independentes: se uma camada falhar, a próxima ainda contém o gasto.

Antes de qualquer chamada paga, decide se vale a pena: site morto, robots bloqueando todos os bots ou HTML < 500 bytes pulam as 4+12 probes de LLM. As dimensões de IA ficam bloqueadas com lockReason honesto. Flags GEO_TRIAGE_* (default ligado). Leva 1, commit d668b33.
Antes de enfileirar, consulta SUM(cost_usd) das últimas 24h em geo_analysis_jobs. Bloqueia novos jobs profundos quando ≥ GEO_CHECK_DAILY_BUDGET_USD (default US$ 5).
Limite de GEO_CHECK_PRO_DAILY_PER_USER (default 5) análises Multi-Geo por dia por email credenciado.
Mesmo domínio analisado nas últimas 24h retorna o resultado cacheado em vez de queimar US$ 0,13. Reduz custo efetivo em ~70% quando há demanda repetida.
Hard pause quando billable usage ultrapassar limite configurado (recomendado US$ 50/mês). Camada externa que não depende do código.
OpenAI Platform, Anthropic Console, Google AI Studio, Perplexity — todos têm cap mensal. Em caso de chave comprometida, esta é a defesa final.
Cada probe (cost, tokens, duração, modelo, sucesso) é espelhada fire-and-forget em finops_calls do Supabase. Permite agregação cross-projeto via geo-finops.

US$ 0,00

Free por análise

Fase 2 + 3

US$ 0,00

PRO por análise

Fase 2 + 3 + 4

US$ 0,00

Teto diário

~38 PRO ou ~125 free

US$ 0

Wikidata + Google KG

APIs públicas e gratuitas

Gemini 2.5-pro: US$ 1,25 / 5,00 por 1M tokens (entrada/saída) — reconciliado em 21-jun-2026 (commit eb440b6). Os tetos US$ 0,04 e US$ 0,13 já absorvem esse preço real.

PRÓXIMOS PASSOS

O que vem agora

5 das 6 fases em produção e as três primeiras levas de robustez entregues. Oito passos destravam Causal Impact, concluem o endurecimento e elevam o piloto Stone.

4 automatizáveis

4 manuais

Aplicar fixes da auditoria NAIA Stone
manual~2-3 semanasBrazil GEO + Stone
Re-rodar cohort STN-* quinzenalmente
automatizávelquinzenal
Concluir o plano de robustez (Leva 4)
automatizávelfeature-flag
Acumular 3 snapshots dos 5 domínios do smoke test
automatizável~3 dias
Implementar CausalImpact (BSTS) em inference.ts
automatizável~1-2 dias
Configurar Spend Management no Vercel
manual~3 min
Configurar usage cap nas 4 dashboards LLM
manual~10 min
Publicar verbete da Brasil GEO no Wikidata
manualEntity Authority

5 fases em produção · 4 LLMs · 8 dimensões · Cohen/Fleiss · Bootstrap BCa

Rode no seu domínio agora

Análise rápida (estática) entrega resultado em 6 segundos. Análise profunda consulta os 4 LLMs em paralelo e devolve em ~60 segundos com mention rate, faithful credit, bubble divergence + Fleiss kappa reais.

Abrir o GEO Score Checker Conversar no WhatsApp

Roadmap mantido por Alexandre Caramaschi, Founder da Brasil GEO. Atualizado em 23 de julho de 2026.

ROADMAP TÉCNICO · v2.6

5 de 6 fases em produção

Atualizado 23 de julho de 2026

Stone D+69 pós-rebrand

GEO Score Checker
Ciência, matemática e uso real em cliente piloto

Maturidade do roadmap

95% completo

As 8 dimensões que pontuam já somam 100. Última fase pendente: Causal Impact (BSTS) — destrava após acumular ≥3 snapshots do mesmo domínio.

8/8

Dimensões ativas

Retrieval → Entity Authority

1+6

Páginas por análise profunda

homepage 256 KB + rastreio interno priorizado

100

Pontos totais

exatos · sem caps artificiais

5/6

Fases em produção

6ª = Causal Impact (BSTS)

LLMs em paralelo

GPT, Claude, Gemini 3 Pro, Sonar

Heurísticas seed

+ aprendidas via cron diário 4h

Camadas FinOps

5 no código + 2 externas

US$ 0,04 / ~0,25

Custo por análise

free vs PRO v2 (24 sondas: marca + share of voice)

~45

Stone (piloto)

baseline NAIA · D+68 pós-rebrand

GUIA DE LEITURA

Como ler este roadmap

Antes de explorar a linha do tempo, entenda o vocabulário e as convenções visuais usadas nesta página.

O que significa cada status

Cada entrega carrega um dos três rótulos abaixo. As cores são consistentes em toda a página.

Entregue
Em progresso
Planejado

Rastreabilidade completa

Cada ponto do GEO Score é ancorável a um paper acadêmico (Cohen/Fleiss kappa, BSTS, bootstrap BCa) ou a um arquivo TypeScript real no repositório. Nenhuma dimensão é arbitrária.

Cinco de seis fases em produção

Legenda de cores e elementos

SNAPSHOT2026-07-23

Números fidedignos · 23 de julho de 2026

8/8

Dimensões ativas

Retrieval → Entity Authority

1+6

Páginas por análise profunda

homepage 256 KB + rastreio interno priorizado

100

Pontos totais

exatos · sem caps artificiais

5/6

Fases em produção

6ª = Causal Impact (BSTS)

LLMs em paralelo

GPT, Claude, Gemini 3 Pro, Sonar

Heurísticas seed

+ aprendidas via cron diário 4h

Camadas FinOps

5 no código + 2 externas

US$ 0,04 / ~0,25

Custo por análise

free vs PRO v2 (24 sondas: marca + share of voice)

~45

Stone (piloto)

baseline NAIA · D+68 pós-rebrand

O PROJETO COMO UM TODO

Balanço do último mês em números · 21-jun → 22-jul-2026

Commits no período

sem merges · 37 clones varridos

Repos ativos

de 37 clones git no ecossistema

PRs mergeados

156 no landing + 19 no worker

Cursos reformados

PRs #310-#318 em /educacao

Commits por repositório · top 6 de 33 ativos

landing-page-geo

156 PRs · educação + imprensa + entity

499

onclick-geo

frontend WordPress + guias-pilar

132

brasilgeo-worker

19 PRs · roadmaps + dossiês gated

122

GEO-Pesquisador

derivadas de mídia NotebookLM

papers *

coleta diária + calibração

Herreira *

monitor GEO 4 verticais

* inclui commits de coleta automática diária (cron); declarado, não descontado. Os 27 repos restantes somam os demais commits da janela.

Fatos rastreáveis da janela

670+termos no glossário SEO/GEO (#310)
531testes no geo-orchestrator (Sprint 24)
20crosslinks editoriais de imprensa (22-jul)
W20-W27relatórios semanais Stone versionados
3 passadasauditoria adversarial da entity CSO Nuvini
18 móduloscurso SEO Programático reescrito (#312)

ÚLTIMOS MESES

O que andou acontecendo

Um resumo operacional semana a semana — selecione o mês para navegar entre os destaques.

Semana 26 · 22-28/06

/admin em 5 ondasVerdade dos dadosQuick wins no blog WP

Semana 27 · 29/06-05/07

Citação viva cross-LLMEfeito halo de imprensaIndexNow

Semana 28 · 06-12/07

33 repos higienizadosSprint 24 · 531 testesNasce o GEO-Pesquisador

Semana 29 · 13-19/07

6 cursos reformadosGlossário 670+ termosPRs #310-#318

Semana 30 · 20-22/07

Entity: CSO Nuvini20 crosslinks de imprensaAuditoria em 3 passadas

Checker no mês · motor estável, FinOps auditável

Zero commits no motorjobs-finops.tsUI refresh 14-jul

Snapshot 22-jul · números fidedignos

1.213 commits33 repos ativos175 PRs mergeados

EM PRODUÇÃOupdated 2026-07-23

Casos reais usando o checker

SMOKE TEST · 5 DOMÍNIOS

O sistema discrimina marca global vs nicho

anthropic.com: 60 · Generation Exposure 19,7/20
vercel.com: 61 · bubble baixo
magazineluiza.com.br: 62 · forte em PT-BR
stripe.com: 64 · maior do batch
brasilgeo.ai: 58 · exposure 9,8/20 (nicho)

CLIENTE PILOTO · BASELINE NAIA 25-MAI

Stone (D+69 pós-rebrand · baseline ~45)

Mercado Pago

PagBank

~45

Stone (hoje)

FASE 4 · MULTI-GEO

hugging-face.co em 3 geos

Score Geo 7,9/10. Severidade low. Cobertura BR 3/4 · US 3/4 · EU 3/4. Validação de filter bubble regional via pairwise agreement entre Brasil, Estados Unidos e Europa.

24 sondas LLM por job (12 marca + 12 share of voice) · ~US$ 0,2 adicional/job

CLIENTE PILOTO

Stone: do baseline à meta

GEO Score — visão comparativa

Mercado Pago

0 / 100

Referência do setor

PagBank

0 / 100

Segunda posição

StonePILOTO

0 / 100

Baseline atual — cliente piloto

Gap em relação ao líder

0pontos abaixo do Mercado Pago

Baseline: ~45/100. Meta imediata: alcançar 60 pontos com correções de Schema.org e exposição.

Próximos passos técnicos

Aplicar fixes de Schema.org (sameAs, Organization, Product)
Acumular ao menos 3 snapshots para ativar fase Causal Impact
Medir delta após rebrand com análise BSTS
Comparar resultados nos 3 geos (BR, US, EU)

POR QUE EXISTE

Três leis que mudaram o jogo

A literatura 2025-2026 sobre GEO derrubou três premissas que moldavam praticamente toda ferramenta de SEO do mercado.

Score é série temporal, não número único

Cada estágio da pipeline generativa precisa ser medido separadamente. Otimizações na geração podem degradar o retrieval.

SAGEO Arena · arXiv:2602.12187

Cada engine é uma realidade informacional distinta

ChatGPT, Claude, Gemini e Perplexity retornam fontes e narrativas diferentes para a mesma query. A métrica primária é a divergência entre engines.

Answer Bubbles · arXiv:2603.16138

O alvo real é Exposure + Faithful Credit + Causal Impact

Não basta aparecer. A IA precisa citar corretamente, e precisamos saber se uma mudança no site causou o ganho.

CC-GSEO-Bench · arXiv:2509.05607

O GEO Score Checker v2.0 foi desenhado a partir dessas três leis. Cada ponto do score é rastreável a um paper ou métrica validada publicamente.

COMO FUNCIONA

O motor por dentro: pipeline stage-aware e fluxo assíncrono

1. Pipeline stage-aware

Atenção: otimizar a geração pode degradar o retrieval. Por isso o GEO Score é medido estágio a estágio — não como número único.

Retrieval

O site é alcançável e legível por crawlers de IA (GPTBot, ClaudeBot, Google-Extended, PerplexityBot, CCBot)?

Retrieval Fitness — 15 pts

Reranking

Sinais estruturais (JSON-LD válido, Schema.org, hierarquia de headings, canonical+OG) colocam o site no top-K das fontes?

Reranking Fitness — 15 pts

Generation

A IA cita o site em respostas sintetizadas, com fidelidade ao que ele declara?

Generation Exposure + Faithful Credit — 35 pts

Sequência de avaliação: Retrieval (15 pts) → Reranking (15 pts) → Generation (35 pts). Passe o cursor ou use Tab para ver o detalhe de cada estágio.

Diagrama 2 de 2

2. Fluxo assíncrono end-to-end

UsuárioInforma o domínio no formulário

POST /api/geo-check

Fila Supabase

Vercel Cron

Claim atômico

Fase estática profunda (30%)

4 LLMs em paralelo

gpt-4o-mini

claude-haiku-4-5

gemini-2.5-pro

sonar

Entity (90%)

score-calculator (100%)

Frontend (polling)

30% — Fase estática profunda (30%)

60% — 4 LLMs em paralelo (60%)

90% — Entity (90%)

100% — score-calculator (100%)

Etapa atual: Usuário

ANATOMIA DO SCORE

As 8 dimensões que somam 100

Retrieval Fitness: 15 pontos — Site alcançável e legível por crawlers de IA. (Fonte: SAGEO Arena (arXiv:2602.12187))
Reranking Fitness: 15 pontos — Sinais estruturais colocam o site no top-K das fontes. (Fonte: SAGEO Arena (arXiv:2602.12187))
Generation Exposure: 20 pontos — Taxa com que a IA cita o site em respostas sintetizadas. (Fonte: CC-GSEO-Bench (arXiv:2509.05607))
Faithful Credit: 15 pontos — A IA cita o site com fidelidade ao que ele declara. (Fonte: CC-GSEO-Bench (arXiv:2509.05607))
Answer Bubble Divergence: 10 pontos — Quão divergentes são as respostas dos 4 engines sobre a marca. (Fonte: Answer Bubbles (arXiv:2603.16138))
Geo-Personalization Robustness: 10 pontos — Consistência da resposta entre BR, US e EU. (Fonte: Geo-Pers Bias (WSDM 2026))
Static Readiness: 10 pontos — HTTPS, TTFB, title e meta description em faixa ideal. (Fonte: Baseline técnico)
Entity Authority: 5 pontos — Entidade confirmada em Wikidata + Google Knowledge Graph. (Fonte: Anchor-Entity Effect + CC-GSEO-Bench)

Passe o cursor ou use Tab para explorar cada dimensão.

Composição total0 pontos

Retrieval Fitness (15)Reranking Fitness (15)Generation Exposure (20)Faithful Credit (15)Answer Bubble Divergence (10)Geo-Personalization Robustness (10)Static Readiness (10)Entity Authority (5)

Causal ImpactEm breve · 0 pts

Requer >=3 snapshots do mesmo domínio (BSTS). É a 6ª e última fase pendente.

ANATOMIA DO SCORE

Como os 100 pontos se distribuem

Pesos exatos extraídos de score-calculator.ts: a soma dá 100 em pontos inteiros, sem caps artificiais. Passe o mouse (ou o foco) em um segmento para destacar a dimensão correspondente na lista.

Retrieval Fitness15 pts

Os crawlers de IA chegam e leem o site: robots.txt, bots de IA, sitemap, llms.txt, HTML com SSR

Reranking Fitness15 pts

O conteúdo sobrevive ao reranker: JSON-LD válido, entidade canônica, hierarquia H1/H2, canonical + OG

Generation Exposure20 pts

Taxa de reconhecimento e citação pelos engines reais, com confiança média e menção do domínio

Faithful Credit15 pts

Quando citado, os engines falam a verdade sobre a marca: acurácia factual, sem alucinações

Answer Bubble Divergence10 pts

Divergência entre engines (invertida: consenso alto pontua mais), medida com Fleiss kappa

Geo-Personalization Robustness10 pts

Filter bubble regional: 4 provedores × 3 geos (BR · US · EU), cobertura e consistência narrativa

Static Readiness10 pts

Baseline técnico: HTTPS, TTFB, title, meta description e o sinal de frescor detalhado abaixo

Entity Authority5 pts

Autoridade de entidade: match Wikidata, Google Knowledge Graph e validação de sameAs

Sinal de frescor: 2 pts graduados dentro do Static Readiness

≤ 90 dias

≤ 180 dias

1,5

≤ 365 dias

> 365 dias

0,5

Pontos por idade do último lastmod. Sem sinal detectável, o item fica em 0,5.

FUNDAÇÃO ACADÊMICA

Cada ponto vem de um paper

As 8 dimensões do GEO Score são ancoradas em literatura acadêmica 2025-2026; clique em uma dimensão para revelar a lógica.

SAGEO Arena

arXiv:2602.12187

Dimensões fundamentadas

CC-GSEO-Bench

arXiv:2509.05607

Dimensões fundamentadas

Answer Bubbles

arXiv:2603.16138

Dimensões fundamentadas

Geo-Pers Bias in News Search

working paper / baseline

Dimensões fundamentadas

Anchor-Entity Effect

working paper / baseline

Dimensões fundamentadas

Baseline técnico condensado

working paper / baseline

Dimensões fundamentadas

CC-GSEO-Bench — dimensão futura

Não pontua ainda

6ª fase pendente

CORPUS 2026

A fronteira acadêmica, verificada em 22-jul

arXiv:2607.14035

Optimizing Visibility in Generative Engines (survey 2023-2026)

No checker: valida o desenho stage-aware do pipeline

arXiv:2606.20065

GEO at Scale (Ranqo)

No checker: baseline externo para a escada global vs nicho do smoke test

arXiv:2604.25707

From Citation Selection to Citation Absorption

Separa ser selecionado de ser absorvido pela resposta. Dataset com 602 prompts, 3 engines e 21.143 citações válidas em 72 features. Contar citações é KPI insuficiente.

No checker: Generation Exposure + Faithful Credit

arXiv:2604.07585

Don't Measure Once

A natureza probabilística dos engines quebra a medição pontual: visibilidade deve ser reportada como distribuição com variância. Screenshot único não é evidência.

No checker: justifica o IC honesto via bootstrap BCa do checker

arXiv:2605.25517

What Gets Cited

No checker: reforça o sinal de frescor do Static Readiness

arXiv:2603.29979

GEO-SFE: Structural Feature Engineering

Engenharia estrutural em 3 níveis (macro, meso e micro) rende +17,3% de taxa de citação e +18,5% de qualidade subjetiva em 6 motores.

No checker: Reranking Fitness (hierarquia e chunking)

arXiv:2603.09296

AgentGEO

Diagnóstico e reparo de falhas de citação: +40% relativo na taxa de citação modificando só 5% do conteúdo. Alguns documentos não são salváveis por otimização.

No checker: espírito do plano de ação priorizado do checker

arXiv:2601.00912

The Discovery Gap

Gap de 30:1 entre reconhecimento e descoberta orgânica no ChatGPT: scores GEO não correlacionam com descoberta. Medir os dois separadamente.

No checker: limite honesto do que o score prevê

arXiv:2606.04362

Disentangling AEO

Caso glasp.co: crescimento bruto de 5,7x vira efeito modelado de 1,82x (IC95 1,31-2,54) quando o controle on-domain é descontado; placebo p=0,16, sugestivo e não conclusivo.

No checker: o mesmo rigor que o Causal Impact pendente exigirá

GROUND TRUTH PRÓPRIOrepo papers · coleta diária · última em 22-jul-2026

Queries executadas

janela fechada de 90 dias (23-abr a 21-jul)

Respostas com citação

taxa geral 35,3% (IC95 34,9-35,6)

Entidades monitoradas

111 reais (79 BR) + 16 controles fictícias

Rodadas de coleta

41 dias coletando · 25.103 análises de contexto

A MATEMÁTICA, NA MÃO

Mexa nas fórmulas: do título ao intervalo de confiança

Função triangular — tamanho do título

Em vez de "aprovado/reprovado", dá crédito parcial e contínuo: títulos entre 30-65 caracteres recebem pontuação máxima; fora disso a curva cai suavemente.

score = 1,000

Tamanho do título: 50 caracteres

Fator de tempo de resposta — TTFB

Rastreadores de IA abandonam requisições lentas. A curva premia TTFB abaixo de 500 ms e penaliza acima de 1.500 ms, chegando a zero em 3 s.

fator = 1,000

TTFB: 400 ms

Intervalo de confiança BCa 95%

74[69, 78]

score pontual e IC 95% BCa

Ilustração: score pontual 74 com banda de confiança de 95% entre 69 e 78 (width = 9 pontos). Quanto maior o número de réplicas, mais estreita tende a ser a banda.

Fleiss kappa — concordância corrigida por acaso

Quando múltiplos motores de IA avaliam o mesmo critério, o acordo bruto superestima a concordância real. O Fleiss kappa desconta o que seria esperado por acaso.

Motor A

sim

Motor B

sim

Motor C

sim

Motor D

não

Acordo bruto

0,83

Fleiss kappa

0,687

substancial

3 de 4 motores concordam em 'sim'. O acordo bruto parece alto (0,83), mas o Fleiss kappa desconta a concordância que ocorreria por acaso.

Escala Landis-Koch

< 0,00pobre

0,00 – 0,20leve

0,21 – 0,40razoável

0,41 – 0,60moderado

0,61 – 0,80substancial

0,81 – 1,00quase perfeito

FORMULÁRIO

As fórmulas, sob demanda

Todas as 7 fórmulas do score em cartões colapsados — expanda apenas o que precisar.

4 ENGINES, 1 VERDADE?

Quatro LLMs em paralelo, divergência medida e custo sob controle

4 LLMs em paralelo — corrida das probes

As quatro chamadas saem ao mesmo tempo. A resposta de cada engine chega em janelas de latência distintas, refletindo diferenças de infraestrutura e modelo — não de informação.

OpenAI

gpt-4o-mini

Aguardando...

US$ 0,15 / 0,60 por 1M tokens (entrada/saída)

structured output json_schema strict

Anthropic

claude-haiku-4-5

Aguardando...

US$ 0,80 / 4,00 por 1M tokens (entrada/saída)

schema explícito no system prompt

Google

gemini-2.5-pro

Aguardando...

US$ 1,25 / 5,00 por 1M tokens (entrada/saída)

responseSchema

Perplexity

sonar

Aguardando...

US$ 1,00 / 1,00 por 1M tokens (entrada/saída)

único com web_search nativo + user_location.country

Divergência entre respostas — coeficiente de Dice

Cada par de respostas é comparado por similaridade de Dice sobre bigramas de caracteres. O grafo abaixo mostra todos os pares; a espessura e a cor da aresta indicam o grau de concordância.

FÓRMULA — Dice similarity sobre bigramas de caracteres
diceSimilarity(a, b) = 2 · |bigrams(a) ∩ bigrams(b)| / (|a| − 1 + |b| − 1)Exemplos:similarity("OpenAI", "Open AI") ≈ 0,73 · similarity("Brasil GEO", "BrasilGEO") ≈ 0,89

Alta similaridade (≥ 0,70)Similaridade média (0,60 – 0,69)Baixa similaridade (< 0,60)

Baixa divergência

Engines convergem — a narrativa da marca está sólida e consistente no ecossistema de IAs. Menor risco de resposta conflitante para o usuário final.

Alta divergência

Engines divergem — há ambiguidade informacional explorável. O GEO Score penaliza e indica quais engines precisam de atenção editorial prioritária.

v2.2 — Fleiss kappa

A versão 2.2 do Score anexará Fleiss kappa para penalizar acordância por acaso entre os engines — refinando a medida de consenso real.

FinOps — defesa em profundidade

Cada job percorre sete camadas de controle antes de qualquer chamada paga chegar aos provedores. O funil abaixo mostra a sequência e o custo real por análise comparado ao teto diário.

Gate de triagem estática

Pula 4 + 12 chamadas pagas se o site estiver fora do ar, se robots.txt bloquear tudo ou se o HTML tiver menos de 500 bytes.

Gate por job

Orçamento diário de US$ 5 por instância de análise.

Rate limit por usuário PRO

No máximo 5 análises por dia por conta PRO.

Cache 24 horas por domínio

Resultado em cache por 24 horas; domínio já analisado não gera novas chamadas às APIs.

Spend Management Vercel

Teto configurado na plataforma Vercel antes de qualquer chamada de função.

Usage limits nas APIs LLM

Limites de gasto configurados diretamente nos painéis OpenAI, Google e Anthropic.

Tracking unificado finops_calls

Tabela finops_calls registra provedor, tokens e custo de cada chamada para auditoria contínua.

Job processado com segurança

Custo estimado por análise

Plano Free (análise estática + compreensão)US$ 0,00

Plano PRO (com Multi-Geo, 12 chamadas extras)US$ 0,00

Teto diário (gate Camada 1)US$ 5,00

Wikidata + Google Knowledge Graph = US$ 0,00 (APIs públicas e gratuitas). O custo real do job deriva exclusivamente das chamadas aos quatro LLMs.

Modelos LLM em produção · pricing canônico

Provider

Modelo

Input / 1M

Output / 1M

Observação

OpenAI

gpt-4o-mini

US$ 0,15

US$ 0,60

structured output json_schema strict

Anthropic

claude-haiku-4-5

US$ 0,80

US$ 4,00

schema explícito em system prompt

Google

gemini-2.5-pro

US$ 1,25

US$ 5,00

responseSchema · preço real do Pro (≈16x o Flash), reconciliado 21-jun

Perplexity

sonar

US$ 1,00

único com web_search nativo + user_location.country

ARQUITETURA

A stack, em blocos

Cada componente do checker organizado por responsabilidade — o fluxo assíncrono end-to-end está animado na seção acima.

▲ Runtime & deploy◆ Dados & fila■ Workers & autenticação● LLM & probes◇ FinOps & custo◎ Estatística & calibração◉ Robustez, SSRF & triagem○ Cache & rate limit

Runtime & deploy

Runtime

Next.js 16 (App Router) · Node runtime em todas as API routes

Dados & fila

Banco / Fila

Parser

3 tentativas: JSON.parse direto → regex ```json fence → regex {…}. Schema normalizado com type guards

Workers & autenticação

Worker

Vercel Cron chamando POST /api/geo-check/worker a cada minuto, 1 job por invocação, maxDuration=60s

Autenticação worker

Bearer token via env CRON_SECRET ou GEO_WORKER_SECRET

LLM & probes

LLM probes

4 fetches paralelos: gpt-4o-mini · claude-haiku-4-5 · gemini-2.5-pro · sonar. Todos com temperature=0, top_p=1, structured output JSON schema onde suportado

Preference engine

Tabela geo_preferences_learned com 10 heurísticas seed baseadas em literatura. filterApplicable() cruza com engines que participaram da análise

FinOps & custo

FinOps unificado

trackProbeCall espelha cada probe em finops_calls (Supabase) — fire-and-forget, nunca bloqueia. Permite agregação cross-projeto com geo-finops

FinOps de jobs

Estatística & calibração

Inferência estatística

inference.ts puro TS: cohenKappa, fleissKappa, bootstrapBcaCI, normalCdf/Ppf (Acklam), reliabilityBin. PRNG seedable (Mulberry32) para testes determinísticos

Calibração

score_calibration_inputs (SQLite no Papers) + scripts/calibrate_score.py (regressão logística, 5-fold CV AUROC ~0.81 em simulação N=200)

Robustez, SSRF & triagem

SSRF protection

Gate de triagem

HTML cap

MAX_HTML_BYTES=30720 (30KB) — suficiente para head + hierarquia inicial, reduz risco de bomba de payload

Cache & rate limit

Cache

24h por domínio via findCachedResult; retorna job antigo se status='done' e created_at > NOW() - 24h

Rate limit / Budget

isBudgetExceeded consulta SUM(cost_usd) do dia em geo_analysis_jobs; bloqueia novas análises async quando ≥ GEO_CHECK_DAILY_BUDGET_USD (default 5)

LINHA DO TEMPO

Sete entregas, uma pendente

Cada fase ampliou a capacidade de mensuração. A ordem reflete a evolução técnica — de análise estática booleana até inferência causal com séries temporais.

Baseline v1
Entregue
Análise estática síncrona, 6 dimensões booleanas.
Stage-Aware Retrofit
Entregue
Pesos contínuos, crédito parcial, 8 dimensões stage-aware.
Multi-Engine Async
Entregue
Pergunta real aos 4 LLMs; mede exposição, fidelidade e bubble.
Entity Disambiguation
Entregue
Cross-check de entidade em Wikidata + Google Knowledge Graph.
Geo-Personalization
Entregue
12 chamadas (4 LLMs × 3 geos: BR, US, EU); robustez regional.
Preference Learning
Entregue
Heurísticas extraídas do histórico via cron diário.
Inferência Estatística
Entregue
Cohen/Fleiss kappa, bootstrap BCa, bridge com o projeto Papers.
Causal Impact (BSTS)
Planejado
Requer >= 3 snapshots do mesmo domínio. Última fase pendente.

ENTREGAS

Sete fases, sem rolagem infinita

Abra apenas as fases que lhe interessam — cada cabeçalho mostra o progresso sem exigir leitura de todas as tarefas.

53 tarefas entregues de 59

PREFERENCE ENGINE

As 10 heurísticas seed, na íntegra

Google

Faithful Credit

88%

+10

Reivindicar o Knowledge Panel via Business Profile + Search Console + Wikidata

OpenAI

Generation Exposure

85%

+8,5

Criar verbete na Wikipedia EN e vincular via sameAs no JSON-LD

Anthropic

Generation Exposure

80%

Adicionar 3 ou mais URLs em sameAs (LinkedIn, Crunchbase, Wikidata)

Todos

Reranking Fitness

95%

Validar todo JSON-LD em validator.schema.org antes de publicar

Todos

Answer Bubble Divergence

90%

+5,5

Criar entrada no Wikidata com as propriedades P31, P856 e P17

Perplexity

Generation Exposure

75%

Manter o lastmod do sitemap atualizado e publicar conteúdo mensalmente

Todos

Reranking Fitness

82%

+4,5

Usar exatamente 1 H1 e 3 ou mais H2 por página

OpenAI

Generation Exposure

70%

Publicar press releases em PR Newswire, Business Wire e domínios .gov

Google

Geo-Personalization

65%

Adicionar hreflang para pt-BR e en

Todos

Retrieval Fitness

78%

+3,5

Configurar CDN e cache para TTFB abaixo de 500 ms globalmente

DIVISÃO DE TRABALHO

O que eu faço × o que exige você

Transparência total sobre onde acaba a automação e começa a decisão humana.

10automatizáveis

9manuais

Claude Code

Re-rodar cohort Stone quinzenalmente
Acumular 3 snapshots dos 5 domínios do smoke test
Implementar BSTS / CausalImpact em inference.ts
Dashboard de curadoria de heurísticas em /admin/geo-prefs
Testes unitários de score-calculator e brand-prompt
Scripts de smoke test para as 4 APIs de LLM
Validar build com npx next build a cada mudança
Curl de teste nas rotas após deploy para medir latência e custos
Monitorar geo_jobs_finops e alertar via WhatsApp em spike
Gerar relatórios PDF automáticos (lead magnet da fase 4)

Você

Aplicar fixes da auditoria NAIA Stone
Decisões estratégicas de priorização Stone
Aprovar heurísticas aprendidas pelo batch job
Validar visualmente respostas de LLMs suspeitas
Responder leads qualificados no WhatsApp
Criar verbete da Brasil GEO no Wikidata
Publicar press releases em domínios .edu e .gov
Configurar Spend Management no Vercel
Configurar usage cap mensal nas 4 dashboards LLM

RIGOR

Como sabemos que estamos medindo certo

Medir compreensão por IA é difícil porque LLMs são não-determinísticos; veja as garantias que elevam a régua do GEO Score Checker.

0de 14 garantias já entregues

Todos os 4 provedores são chamados com temperature zerada. Em ~95% dos casos a mesma query retorna JSON idêntico entre runs. Os 5% restantes variam em ~1-2 palavras, que o pairwise agreement + Fleiss kappa absorvem.
OpenAI json_schema strict, Google responseSchema, Anthropic prompt explícito. Zero parsing de texto livre — ou o LLM retorna o schema, ou falha visivelmente.
Faithful Credit compara name vs <title> e proposition vs meta description. Alucinações capturadas quando divergem do que o próprio site afirma.
4 engines independentes reduzem vieses específicos. Pairwise agreement elimina rajadas de um único modelo.
O prompt força o LLM a admitir desconhecimento em vez de chutar. Exemplos positivos e negativos no próprio prompt.
Cada LLM devolve hallucinationFlags[] listando afirmações incertas. Contadas e penalizadas na dimensão Faithful Credit.
cost_usd individual em evaluations[]; soma em geo_analysis_jobs.cost_usd. trackProbeCall espelha em finops_calls (cross-projeto).
Corrige pairwise agreement bruto pelo esperado por chance. Cada campo livre vira shingle canônico → rótulo nominal → kappa Landis-Koch.
Bias-Corrected and Accelerated (Efron 1987). Score = 74 [69, 78] em vez de cravado, quando há ≥5 réplicas.
score_calibration_inputs + scripts/calibrate_score.py. Logit com 5-fold CV AUROC ~0,81 em simulação N=200. Pesos calibrados quando dataset real maturar.
AUTOMATIZÁVEL: rodar mesmo domínio 10× e calcular variância dos scores por dimensão. Meta: std < 1 pt total.
SEMI-MANUAL: 20 marcas famosas + 20 desconhecidas, comparar contra anotação humana de 'reconhecimento factual'. Meta: accuracy > 85%.
AUTOMATIZÁVEL: gravar model + version em cada probe. Alerta quando provider muda internamente (custo/tokens médios saltam). Invalida comparação histórica.
Implementado em 06-abr (commit 4f24fc2). Cada job armazena rawText de cada probe; UI expõe via /api/geo-check/[id]?evidence=1.

FINOPS

Sete camadas contra estouro de custo

Cada análise atravessa uma escada de bloqueios independentes: se uma camada falhar, a próxima ainda contém o gasto.

Antes de qualquer chamada paga, decide se vale a pena: site morto, robots bloqueando todos os bots ou HTML < 500 bytes pulam as 4+12 probes de LLM. As dimensões de IA ficam bloqueadas com lockReason honesto. Flags GEO_TRIAGE_* (default ligado). Leva 1, commit d668b33.
Antes de enfileirar, consulta SUM(cost_usd) das últimas 24h em geo_analysis_jobs. Bloqueia novos jobs profundos quando ≥ GEO_CHECK_DAILY_BUDGET_USD (default US$ 5).
Limite de GEO_CHECK_PRO_DAILY_PER_USER (default 5) análises Multi-Geo por dia por email credenciado.
Mesmo domínio analisado nas últimas 24h retorna o resultado cacheado em vez de queimar US$ 0,13. Reduz custo efetivo em ~70% quando há demanda repetida.
Hard pause quando billable usage ultrapassar limite configurado (recomendado US$ 50/mês). Camada externa que não depende do código.
OpenAI Platform, Anthropic Console, Google AI Studio, Perplexity — todos têm cap mensal. Em caso de chave comprometida, esta é a defesa final.
Cada probe (cost, tokens, duração, modelo, sucesso) é espelhada fire-and-forget em finops_calls do Supabase. Permite agregação cross-projeto via geo-finops.

US$ 0,00

Free por análise

Fase 2 + 3

US$ 0,00

PRO por análise

Fase 2 + 3 + 4

US$ 0,00

Teto diário

~38 PRO ou ~125 free

US$ 0

Wikidata + Google KG

APIs públicas e gratuitas

Gemini 2.5-pro: US$ 1,25 / 5,00 por 1M tokens (entrada/saída) — reconciliado em 21-jun-2026 (commit eb440b6). Os tetos US$ 0,04 e US$ 0,13 já absorvem esse preço real.

PRÓXIMOS PASSOS

O que vem agora

5 das 6 fases em produção e as três primeiras levas de robustez entregues. Oito passos destravam Causal Impact, concluem o endurecimento e elevam o piloto Stone.

4 automatizáveis

4 manuais

Aplicar fixes da auditoria NAIA Stone
manual~2-3 semanasBrazil GEO + Stone
Re-rodar cohort STN-* quinzenalmente
automatizávelquinzenal
Concluir o plano de robustez (Leva 4)
automatizávelfeature-flag
Acumular 3 snapshots dos 5 domínios do smoke test
automatizável~3 dias
Implementar CausalImpact (BSTS) em inference.ts
automatizável~1-2 dias
Configurar Spend Management no Vercel
manual~3 min
Configurar usage cap nas 4 dashboards LLM
manual~10 min
Publicar verbete da Brasil GEO no Wikidata
manualEntity Authority

5 fases em produção · 4 LLMs · 8 dimensões · Cohen/Fleiss · Bootstrap BCa

Rode no seu domínio agora

Abrir o GEO Score Checker Conversar no WhatsApp

Roadmap mantido por Alexandre Caramaschi, Founder da Brasil GEO. Atualizado em 23 de julho de 2026.

GEO Score CheckerCiência, matemática e uso real em cliente piloto

Como ler este roadmap

O que significa cada status

Rastreabilidade completa

Cinco de seis fases em produção

Legenda de cores e elementos

Números fidedignos · 23 de julho de 2026

Balanço do último mês em números · 21-jun → 22-jul-2026

Commits por repositório · top 6 de 33 ativos

Fatos rastreáveis da janela

O que andou acontecendo

Casos reais usando o checker

O sistema discrimina marca global vs nicho

Stone (D+69 pós-rebrand · baseline ~45)

hugging-face.co em 3 geos

Stone: do baseline à meta

GEO Score — visão comparativa

Três leis que mudaram o jogo

Score é série temporal, não número único

Cada engine é uma realidade informacional distinta

O alvo real é Exposure + Faithful Credit + Causal Impact

O motor por dentro: pipeline stage-aware e fluxo assíncrono

1. Pipeline stage-aware

2. Fluxo assíncrono end-to-end

As 8 dimensões que somam 100

Como os 100 pontos se distribuem

Sinal de frescor: 2 pts graduados dentro do Static Readiness

Cada ponto vem de um paper

A fronteira acadêmica, verificada em 22-jul

Optimizing Visibility in Generative Engines (survey 2023-2026)

GEO at Scale (Ranqo)

From Citation Selection to Citation Absorption

Don't Measure Once

What Gets Cited

GEO-SFE: Structural Feature Engineering

AgentGEO

The Discovery Gap

Disentangling AEO

Mexa nas fórmulas: do título ao intervalo de confiança

Função triangular — tamanho do título

Fator de tempo de resposta — TTFB

Intervalo de confiança BCa 95%

Fleiss kappa — concordância corrigida por acaso

As fórmulas, sob demanda

Quatro LLMs em paralelo, divergência medida e custo sob controle

4 LLMs em paralelo — corrida das probes

Divergência entre respostas — coeficiente de Dice

FinOps — defesa em profundidade

Modelos LLM em produção · pricing canônico

A stack, em blocos

Sete entregas, uma pendente

Baseline v1

Stage-Aware Retrofit

Multi-Engine Async

Entity Disambiguation

Geo-Personalization

Preference Learning

Inferência Estatística

Causal Impact (BSTS)

Sete fases, sem rolagem infinita

0Fase 0 — Baseline v14 tarefas · 4 entreguesEntregue

1Fase 1 — Stage-Aware Retrofit + matemática contínua8 tarefas · 8 entreguesEntregue

2Fase 2 — Multi-Engine Async + compreensão real13 tarefas · 13 entreguesEntregue

3Fase 3 — Entity Disambiguation (Wikidata + Google KG)7 tarefas · 7 entreguesEntregue

4Fase 4 — Geo-Personalization Robustness8 tarefas · 8 entreguesEntregue

5Fase 5 — Preference Learning (AutoGEO-inspired)9 tarefas · 8 entregues, 1 planejadasEntregue

5.5Fase 5.5 — Inferência Estatística + Bridge Papers (v2.2)10 tarefas · 5 entregues, 5 planejadasEntregue

As 10 heurísticas seed, na íntegra

O que eu faço × o que exige você

Claude Code

Você

Como sabemos que estamos medindo certo

Sete camadas contra estouro de custo

O que vem agora

Aplicar fixes da auditoria NAIA Stone

Re-rodar cohort STN-* quinzenalmente

Concluir o plano de robustez (Leva 4)

Acumular 3 snapshots dos 5 domínios do smoke test

Implementar CausalImpact (BSTS) em inference.ts

Configurar Spend Management no Vercel

GEO Score Checker
Ciência, matemática e uso real em cliente piloto

GEO Score Checker
Ciência, matemática e uso real em cliente piloto