Eu descrevi um auditor de GEO em português e o agente o construiu
Na semana passada precisei auditar a presença de uma marca em motores de IA e produzir um plano de correção. O trabalho clássico levaria uma semana de um analista sênior: rodar dezenas de prompts no ChatGPT, Gemini, Perplexity e Copilot, anotar quem é citado, cruzar com schema do site, checar Wikidata, montar planilha. Eu fiz a primeira passada em uma tarde. Não porque sou rápido, mas porque descrevi o auditor que eu queria em português, dentro do Claude Code, e deixei o agente escrever o código, chamar as ferramentas e devolver o relatório estruturado.
Isso tem nome na comunidade: vibecoding. Você programa por linguagem natural, descreve a stack, o fluxo e o formato de dados, e o agente ou a IDE com IA gera e itera o código. Não é mágica e não substitui quem sabe o que está fazendo. É uma mudança de interface: você deixa de digitar cada linha e passa a descrever intenção, revisar diffs e corrigir rumo. Quem confunde isso com terceirizar o julgamento produz lixo automatizado em escala, que é exatamente o que o Core Update de março de 2026 aprende a filtrar.
A tese deste tutorial é direta e contraintuitiva para quem ainda vê IA como gerador de texto: o ganho real de GEO em 2026 não vem de um modelo grande fazendo tudo, vem de orquestrar modelos diferentes em papéis diferentes e de codar a operação por linguagem natural. Pesquisa viva no Perplexity, redação no GPT, análise no Gemini, classificação no Groq, decomposição e revisão crítica no Claude. O orquestrador escolhe o modelo certo por custo, latência e necessidade de raciocínio. É o que o guia da IBM sobre orquestração de agentes chama de camada de controle que gerencia fluxo, estado e roteamento, e o que a comunidade já trata como o stack padrão de GEO.
Vou entregar o passo a passo que eu uso: as ferramentas, a ordem, o Master Prompt de auditoria como artefato reproduzível, e as armadilhas que já me custaram tempo. Os fatos sobre Claude, MCP e as novidades da Anthropic de maio de 2026 vêm de research vivo que rodei em 31 de maio, com as fontes linkadas no corpo.
O que é vibecoding e por que ele muda a economia da implementação de GEO
Vibecoding é programar descrevendo o que você quer em linguagem natural e deixando um agente gerar e ajustar o código. A comunidade também chama de natural language programming ou prompt-driven dev. Em vez de escrever do zero um crawler, um extrator de schema ou um integrador com o Search Console, você explica a tarefa para uma IDE com IA profunda (Cursor, por exemplo) ou para um agente de código (Claude Code) e itera por revisão.
Por que isso importa para GEO especificamente. Implementar GEO de verdade é trabalho de engenharia de dados disfarçado de marketing: você precisa rastrear o próprio site, comparar schema com conteúdo visível, monitorar quem a IA cita, normalizar entidades, gerar JSON-LD válido em escala. Tudo isso é código. Antes do vibecoding, esse código era a barreira que separava a consultoria que fala de GEO da que executa GEO. Hoje a barreira caiu, e o diferencial passou a ser o julgamento sobre o que pedir e como validar.
O alerta vem junto com a ferramenta. A própria comunidade técnica é clara sobre o risco de over-automation: gerar milhares de páginas e marcações sem uma tese de negócio produz volume sem valor incremental, e isso tende a ser filtrado no médio prazo conforme os sinais de E-E-A-T e Information Gain ganham peso. LLMs são ótimos para operacionalizar uma estratégia, não para substituí-la. Eu trato vibecoding como acelerador de execução, com gate humano obrigatório em qualquer página crítica e em qualquer afirmação sensível (YMYL, saúde, finanças).
Para entender o limite entre o que vale automatizar e o que exige plataforma ou pessoa, vale ler o comparativo que escrevi sobre automação versus plataformas de GEO. A regra que sigo: automatize a coleta e a transformação, mantenha o humano na decisão e na publicação.
A orquestração de múltiplos LLMs: cada modelo no papel em que é melhor
Orquestração de LLMs é uma camada de controle que recebe a demanda, decide quais modelos usar, roteia tarefas e integra os resultados. O conceito não é meu nem é novo: guias de TrueFoundry, IBM e AIMultiple descrevem orquestração como gestão de fluxo, estado, roteamento e integração de dados, frequentemente envolvendo vários modelos e ferramentas. O que a comunidade de GEO fez foi mapear papéis específicos para tarefas de visibilidade em IA.
O padrão que uso no dia a dia distribui assim, por diversidade condicional (o orquestrador escolhe o modelo conforme a tarefa, o custo e a necessidade de raciocínio):
- Perplexity (sonar-deep-research): pesquisa de base com dezenas de citações verificáveis, antes de escrever qualquer conteúdo de alta responsabilidade. É a camada que ancora afirmações em fonte e reduz alucinação.
- GPT-4o: redação e copy, onde fluência e voz importam mais. Meta descriptions, FAQs, variantes de título.
- Gemini 2.5 Pro/Flash: análise de grandes volumes (logs de rastreio, listas de keywords) e classificação massiva de páginas por intenção.
- Groq com Llama ou GPT OSS: classificação ultrarrápida em hardware LPU. Clusterizar milhões de queries, taggear features de SERP, extrair entidades candidatas em segundos.
- Claude (Opus/Sonnet/Haiku): decomposição de problemas complexos, geração de código para os pipelines e revisão crítica dos outputs dos outros modelos. É o cérebro que monta o plano e audita o resultado.
A motivação é tripla e pragmática: reduzir custo usando modelos menores e OSS nas tarefas simples; aumentar robustez com verificação cruzada entre modelos; e escalar tarefas repetitivas sem perder governança (logs, métricas, gate humano). Frameworks como LangChain, LangGraph, AutoGen e CrewAI dão a estrutura para fluxos multiagente com estado e papéis. Eu detalhei o desenho completo, com os custos por milhão de tokens, no artigo sobre o orquestrador de seis LLMs que está virando o stack padrão de GEO. Aqui o foco é usá-lo para auditar e implementar.
O que a Anthropic anunciou em maio de 2026 (e por que é o blueprint da sua operação)
Maio de 2026 foi um mês denso para a Anthropic, e quase nada do que foi anunciado tinha a palavra GEO. Mesmo assim, o modelo de produto que a empresa empurrou é exatamente o que você replica para automatizar auditoria e implementação. Vale separar o que é fato verificável do que é leitura de comunidade.
Em 5 de maio de 2026, num evento fechado para serviços financeiros em Nova Iorque, a Anthropic lançou dez templates de agentes prontos para rodar (Earnings Reviewer, Market Researcher, Pitch Agent, KYC Screener, entre outros). O detalhe importante é a anatomia desses agentes: cada um é a composição de skills (arquivos Markdown com instruções operacionais e conhecimento de domínio), tools (integrações externas) e workflows (como o agente orquestra as ferramentas). Eles instalam como plugins no Claude Code e podem rodar em produção como Managed Agents. A integração com Microsoft 365 (add-ins para Excel, PowerPoint e Word) entrou em disponibilidade geral.
O ponto que mais importa para GEO: a Anthropic integrou onze provedores de dados financeiros via Model Context Protocol (MCP), acessíveis de forma unificada por todos os agentes. Essa arquitetura de "onze providers via MCP" é um blueprint direto para um MCP server de marketing e growth, agregando um provider de Search Console, um de analytics (GA4/BigQuery), um de crawl, um de Ads, um de CRM. O agente consulta esses providers quando precisa, em vez de você colar dados manualmente em prompts gigantes. Isso está descrito no anúncio do evento financeiro, coberto pela imprensa especializada (Eco/Sapo, 04/05/2026).
Em 29 de maio de 2026, a Anthropic anunciou uma rodada de financiamento de 65 bilhões de dólares, levando o valuation a 965 bilhões, e lançou o Claude Opus 4.8, posicionado como ainda mais forte em programação e trabalhos profissionais que as versões anteriores, segundo a Euronews. Para quem opera GEO, a leitura é prática: se você usava Claude para coding de pipelines, geração de schema e análise de logs, o 4.8 é o novo alvo. A própria Anthropic publicou um 2026 Agentic Coding Trends Report mapeando oito tendências de desenvolvimento com agentes, incluindo coordenação multiagente e colaboração humano-IA no ciclo de desenvolvimento. Honestidade intelectual aqui: a Anthropic não publicou números de ganho de SEO com Claude, e os cases de "reduzi 70% do tempo de brief" vêm de criadores independentes, sem auditoria. Trate-os como sinais, não como prova.
Passo 1 a 3: montar o ambiente de vibecoding para GEO
A ordem importa. Antes de pedir qualquer auditoria ao agente, você precisa de três coisas no lugar: o ambiente, as ferramentas conectadas e os playbooks codificados como skills. Faço sempre nesta sequência.
Passo 1 — Escolher a superfície de execução. Para um operador de growth técnico, recomendo Claude Code como agente principal (ele decompõe, escreve código e revisa) e o Cursor quando você quer editar e iterar dentro de uma IDE com contexto do repositório. Os dois coexistem: uso o Cursor para construir e versionar os scripts, e o Claude Code para rodar as rotinas de auditoria como agente.
Passo 2 — Conectar dados via MCP, não por copiar e colar. Replicando a arquitetura dos onze providers financeiros da Anthropic, monto um MCP server de growth com providers nomeados: search_console_provider, analytics_provider, crawler_provider, ads_provider, crm_provider. O agente faz queries a esses providers quando precisa do dado. Isso elimina o prompt gigante com colagem manual e mantém a operação auditável.
Passo 3 — Codificar os playbooks como skills em Markdown. Coloque em arquivos Markdown as regras de GEO da empresa, os frameworks internos (como avaliar uma página YMYL, como priorizar issues técnicos) e as diretrizes de voz e marca. Esses skills viram o contexto estável dos agentes e reduzem a necessidade de prompts enormes. É o mesmo mecanismo que a Anthropic usa nos agentes financeiros, transposto para GEO.
Definição importante: defina agentes por função, não por canal. Crie um SEO Technical Auditor Agent, um Content Gap Agent, um Entity Auditor Agent, um Citation Monitor Agent. Não crie um "agente do Google" e um "agente do Meta". A função é estável, o canal muda.
Passo 4: auditar GEO em quatro frentes com a orquestração
Com o ambiente pronto, a auditoria roda em quatro frentes. Para cada uma, indico quem faz o quê na orquestração.
- Monitorar citações em IA. Esta virou tão importante quanto monitorar backlinks. O fluxo: agentes consultam ChatGPT com browsing, Perplexity, Gemini AI Mode e Copilot com um conjunto fixo de 30 prompts representativos; um modelo rápido (Llama em Groq) extrai menções, sentimento e tipo (marca, produto, concorrente); um modelo de raciocínio (Claude) mapeia as menções para as entidades canônicas do seu knowledge graph interno. O KPI primário é Mention Rate. Benchmark de mercado: abaixo de 5% você é invisível, 5 a 15% é emergente, 15 a 30% é forte. Eu mostro como codar a parte de monitoramento em Python no artigo sobre automação em Python para monitorar citações em IA.
- Gerar e validar schema em escala. Um agente crawler pega HTML, headings e dados estruturados existentes; um LLM "schema designer" (GPT-4o ou Claude) decide o tipo Schema.org adequado; um LLM "validator/critic" verifica se o JSON-LD é válido, se respeita as políticas do Google e se não há claim sensível sem fonte. A etapa de autocrítica é o que reduz erro e alucinação. Lembre-se da assimetria upstream versus runtime: schema importa na ingestão (desambiguação de entidade), mas o LLM lê só o conteúdo HTML visível em runtime. Schema entra no pool de recuperação, não amplifica página já citada.
- Auditar a entidade digital. O agente verifica se há MID no Google Knowledge Graph e entrada no Wikidata para a marca e os autores; checa Organization schema com sameAs em pelo menos cinco perfis; mede a consistência semântica entre a descrição no site e nos perfis de terceiros (LinkedIn, Crunchbase, listagens). O alvo é manter alta similaridade entre as representações, porque drift de entidade derruba a persistência de citação. Detalhei esse risco no texto sobre auditoria de entidade digital e entity drift.
- Produzir conteúdo citável em escala, com controle. Perplexity faz a pesquisa de base com citações; Gemini ou Groq clusteriza os subtópicos; GPT-4o ou Claude redige sobre um blueprint de estrutura; outro modelo de raciocínio faz a crítica de qualidade e E-E-A-T (consistência com a fonte, ausência de afirmação sem base, tom de marca). O diff de Markdown vira um pull request com log completo, e a publicação de páginas críticas passa por revisão humana.
Passo 5: o Master Prompt de auditoria (artefato reproduzível)
Este é o artefato que torna a auditoria repetível. É um prompt-mestre que você cola no agente (Claude Code, com as tools conectadas) e que executa cinco ondas sequenciais sobre o site, da fundação técnica à prontidão para agentes. Ele assume a persona de Head de SEO/GEO sênior e auditor C-level. Adapte os domínios entre colchetes ao seu cliente. Reproduza a estrutura, não copie cega: o valor está nos gates de saída de cada onda.
VOCÊ E: Head de SEO/GEO sênior + auditor C-level, com acesso a
browsing, fetch de HTML, Search Console, GA4 e logs de servidor.
OBJETIVO: auditar e otimizar o portal [DOMÍNIO], integrando SEO
clássico + GEO + AEO + acesso de crawlers de IA + prontidão B2A.
Saída por onda: (1) relatório executivo BLUF, (2) matriz item-a-item
status verde/amarelo/vermelho, (3) JSON de findings, (4) métricas de
sucesso, (5) gate de saída explícito.
PRINCIPIOS (ordem de prioridade):
1. Helpful content first (qualidade percebida, independe da origem).
2. E-E-A-T com Experience primario (pos-Core Update mar/2026).
3. GEO-ready: Cite Sources +115%, Statistics +41%, Quotation +28%.
4. B2A-ready: 90% das compras B2B mediadas por agente ate 2028.
5. Citation-worthy > click-worthy (maioria das buscas e zero-click).
ONDA 1 — FUNDACAO TECNICA E ACESSO
Audite: crawlabilidade, indexabilidade, URLs, Core Web Vitals
(LCP <2,0s; INP <200ms; CLS <=0,1), renderizacao SSR vs CSR,
robots.txt liberando OAI-SearchBot, Claude-SearchBot, PerplexityBot,
Google-Extended (decidir training por politica; bloquear Bytespider),
e WAF não retornando 403/CAPTCHA para bots de retrieval.
GATE: robots.txt 2026-compliant, CWV "Good" em >=75% das URLs,
zero bloqueio involuntario de bot de retrieval nos logs.
ONDA 2 — ARQUITETURA, SEMANTICA E ENTIDADE
Audite: 1 H1 por pagina, hierarquia de headings sem salto, hubs
com 8+ spokes, Organization schema com sameAs >=5, Person schema
nos autores, entrada bidirecional no Wikidata, links internos
contextuais >=5 por artigo.
GATE: entidades-chave verificaveis no Knowledge Graph/Wikidata,
zero pagina orfa em verticais criticos.
ONDA 3 — CONTEUDO, INTENCAO E PROFUNDIDADE
Audite: autor nomeado + bio, answer capsule de 120-150 char apos
heading-pergunta, Information Gain (% de conteudo original >30%),
>=3 fontes primarias e >=5 estatisticas por longform, cobertura
de query fan-out, frescor (dateModified rolling).
GATE: answer capsules nos pillars, mapa de fan-out das top-30
queries com plano de gap-fill.
ONDA 4 — CITABILIDADE, GEO, AEO E SCHEMA STACK
Audite: Article/NewsArticle valido, @graph aninhado conectando
Article -> Person -> Organization -> IDs do Wikidata, paridade
schema vs conteudo visivel, Mention Rate por motor (baseline com
30 prompts em ChatGPT, Perplexity, Gemini, Copilot), persistência
de citação (D+0/D+14/D+30), consenso multi-fonte (>=3 fontes).
GATE: schema stack publicado e validado, baseline de Mention/
Citation Rate documentado, monitoramento de citação em produção.
ONDA 5 — AUTORIDADE, RISCO E PRONTIDÃO B2A
Audite: menções externas (Wikipedia, Reddit, Quora, reviews),
shadow competitivo nas queries prioritarias, exposicao adversarial,
risco zero-clique, prontidão B2A (API publica, OpenAPI, endpoint
MCP/NLWeb), distribuicao em multiplos indices de retrieval.
GATE: plano de autoridade off-site em execucao, piloto B2A definido
com owners e KPIs, politicas de Trust & Safety publicadas.
REGRAS: cite a evidencia observada em cada finding; declare incerteza
onde ela existe (ex.: ROI de llms.txt e marginal hoje); não trate
schema como requisito de IA; não escreva "para IA" diferente de
"para humanos". Para paginas criticas, recomende revisao humana.
Um aviso de honestidade epistemológica que faz parte do próprio prompt: correlação não é causalidade em GEO. Mention Rate pode subir por refresh, por seeding off-site, por mudança no algoritmo do LLM, ou por tudo junto. Faça testes controlados e não venda atalho técnico como bala de prata.
Passo 6: implementar as correções com pull requests e gate humano
Auditar sem implementar é teatro consultivo. O fluxo de implementação que sigo fecha o ciclo. O agente de código gera os diffs (schema novo, correção de headings, answer capsules, ajuste de robots.txt) e abre um pull request com log completo. Pipelines de CI/CD (GitHub Actions, por exemplo) validam o JSON-LD e rodam os testes antes do merge. Páginas críticas e qualquer afirmação sensível passam por revisão humana obrigatória.
O loop de melhoria fecha com conectores ao Search Console que exportam rich results, CTR e erros de dados estruturados, alimentando o agente para ajustar templates e propor novos tipos de schema para testar. É um sistema vivo, não um relatório de PDF que envelhece em uma semana.
A disciplina de governança não é opcional. Para setores regulados, mantenha logs auditáveis das decisões do sistema, revisão humana para conteúdo de alto risco e checagem de fontes e direitos autorais. A segurança importa: a Anthropic reforçou em maio de 2026, após o projeto Mythos, que agentes com acesso a produção (CRM, CMS, Ads, dados first-party) dependem de governança bem configurada de tools e MCP para não vazar dado ou executar ação indevida. Eu nunca dou a um agente acesso de escrita a produção sem um gate humano no caminho.
As armadilhas que já me custaram tempo (e como evito)
Cinco erros recorrentes, em ordem de quanto já me custaram.
- Garbage in, garbage out. Sem um knowledge graph interno e fontes confiáveis, os LLMs exageram, misturam fatos e inventam entidades. A defesa é RAG bem feito (LlamaIndex, Haystack sobre o seu próprio corpus) e estágios de verificação antes de publicar. Eu vi, neste próprio research, um modelo de classificação rápida alucinar definições técnicas inteiras de protocolos. Por isso o passo de crítica cruzada existe.
- Confiar no modelo rápido para tarefa de raciocínio. Groq e modelos OSS são excelentes para classificar e extrair em massa, péssimos para desambiguar entidade ou julgar nuance. Roteie raciocínio pesado para Claude ou um modelo de reasoning. Diversidade condicional existe para isso.
- Over-automation sem tese. Gerar mil páginas e schema sem estratégia infla o site com valor incremental baixo e atrai filtro de qualidade. Automatize a operação, não a estratégia.
- Dependência de vendor. Preços e modelos mudam rápido. Use uma camada de abstração (LangChain, Semantic Kernel ou orquestrador próprio) para trocar modelo sem reescrever tudo, e faça testes A/B constantes.
- Tratar schema como requisito de IA. Schema é higiene semântica e desambiguação de entidade, não amplificador de citação em página já citada. O LLM lê conteúdo HTML visível em runtime.
Para escolher entre construir essa stack ou comprar uma plataforma pronta, e para saber quais ferramentas brasileiras existem, vale o panorama de ferramentas de GEO que mantenho atualizado. Minha regra: comece pequeno, com um ou dois modelos e poucos agentes, e só cresça a orquestração quando o ROI estiver medido.
O próximo passo: um agente, uma frente, esta semana
Se você é consultor ou operador de growth técnico e quer começar sem afogar o time, não monte a orquestração de seis modelos de uma vez. Escolha uma frente e um agente. A que dá retorno mais rápido e visível é o monitoramento de citação: 30 prompts fixos, quatro motores, rodando uma vez por semana, com o resultado caindo no Slack. Isso te dá baseline de Mention Rate e prova de conceito em dias.
Com o baseline na mão, adicione o segundo agente (auditoria de schema ou de entidade), conecte um provider de MCP por vez, e codifique um playbook como skill antes de pedir a próxima auditoria. O Claude Opus 4.8, lançado em 29 de maio de 2026 com foco em coding, é hoje o alvo natural para escrever esses pipelines. O resto é disciplina: gate humano, log auditável, teste controlado.
O ponto que eu repito para quem está começando: vibecoding e orquestração não substituem saber o que é GEO. Eles removem a barreira de execução. A estratégia continua sendo sua, e é ela que decide se a automação produz autoridade ou ruído.