A pergunta que eu não sabia responder na reunião
Semana passada, numa reunião de diagnóstico com um cliente de SaaS B2B, o CMO me fez a pergunta mais simples e mais incômoda do ano: "Alexandre, quando alguém pergunta ao ChatGPT qual a melhor ferramenta da nossa categoria, a gente aparece?". Eu não tinha uma resposta auditável. Tinha intuição. E intuição não vale numa decisão de orçamento de seis dígitos. Naquela noite, rodei a auditoria que descrevo aqui e a verdade doeu: a marca dele tinha mention rate de 4% nos motores que importavam. Invisível, pelo benchmark que uso.
A tese contraintuitiva deste tutorial é a seguinte: você não precisa comprar uma plataforma de mil dólares por mês para descobrir se sua marca existe para a máquina. Precisa de um master prompt bem desenhado, de seis LLMs complementares e de disciplina para registrar os resultados num painel próprio. A ferramenta paga acelera e escala — mas o método é o que dá a verdade. E o método é replicável por qualquer consultor, agência ou operador técnico que saiba copiar e colar.
Vou te entregar exatamente o que eu faço: a anatomia do prompt, a tabela de qual LLM usar para qual papel, o passo a passo numerado e as três métricas que monto — com honestidade brutal sobre o que é mensurável e o que é estimativa. Se você quer entender antes a teoria de medição, leia Share of Voice em IA: como medir se sua marca existe para a máquina. Aqui é a parte prática: o "como eu faço".
Por que rodo seis LLMs e não confio em um só
A pergunta que mais recebo é: "Por que não perguntar só ao ChatGPT e pronto?". Porque cada modelo tem um índice diferente, um viés diferente e uma fonte de recuperação diferente. O ChatGPT com busca lê a web de um jeito; o Gemini está colado no índice do Google e no AI Mode; o Perplexity é um motor de pesquisa com citação explícita de fontes; o Claude tende a ser mais conservador e a citar fontes consolidadas; o Groq roda modelos abertos com velocidade absurda para classificação em lote; e o Grok puxa do ecossistema do X em tempo quase real. Perguntar a um só é como auditar uma marca olhando uma única praça de uma cidade inteira.
Há um dado que sustenta isso: o overlap entre quem está no top-10 do ranking orgânico e quem é citado pela IA caiu de 76% em 2025 para 38% em 2026, segundo levantamento da ALM Corp sobre 173 mil URLs. Ou seja, estar bem no Google já não garante estar na resposta gerada — e cada motor reescreve essa loteria de um jeito. Se você quer entender a mecânica por trás disso, vale ler por que seu conteúdo ranqueia no Google e some no ChatGPT.
O segundo motivo é o cross-check. Modelos generativos são estocásticos: a mesma pergunta gera respostas levemente diferentes a cada rodada. Um modelo pode citar sua marca por sorte numa amostra. Seis modelos, com várias amostras cada, transformam ruído em sinal. Quando a sua marca aparece em quatro dos seis motores, isso é autoridade distribuída — não é coincidência. Essa lógica de papéis complementares é a mesma que aplico na minha stack de produção, descrita em o orquestrador de 6 LLMs como padrão de stack GEO.
A tabela que uso: LLM → papel → o que extrair
Antes do prompt, defino quem faz o quê. Não uso os seis modelos para a mesma tarefa — uso cada um no papel em que ele é mais forte e menos enviesado. Esta é a matriz exata que mantenho colada no meu painel de auditoria:
| LLM | Papel na auditoria | O que extrair |
|---|---|---|
| Perplexity | Pesquisa viva com fontes nomeadas | Quais domínios e URLs ele cita para cada query; se a sua marca está entre as referências (citation rate real, com link visível). |
| GPT (ChatGPT/GPT-5.5) | Redige e sintetiza a resposta de consumo | Se a marca aparece na resposta-padrão que o usuário final leria; em que posição da lista; com que tom (recomendação vs. menção solta). |
| Gemini | Analisa contexto longo e proximidade do índice Google | Cobertura no ecossistema Google/AI Mode; quais entidades concorrentes ele associa à sua categoria; lacunas de contexto sobre a marca. |
| Groq | Classifica e processa em lote (rápido e barato) | Sentimento (positivo/neutro/negativo) e posição de cada menção em centenas de respostas coletadas; rotulação bulk para o cálculo de share of model. |
| Claude | Decompõe a query e revisa o veredito | Sub-queries que o query fan-out provavelmente dispara; revisão crítica das menções marcadas como falso-positivo; síntese final do diagnóstico. |
| Grok | Red-team / contraditório em tempo real | O que se fala da marca agora no ecossistema social; menções negativas ou polêmicas que os outros não pegam; cenário onde a marca não deveria ser citada. |
Repare numa coisa: o Grok entra como red-team, não como repetidor. O papel dele é tentar derrubar a tese — encontrar o contexto em que a marca aparece mal, ou em que um concorrente domina. Uma auditoria que só procura boas notícias é marketing, não auditoria. Esse mapa de papéis complementares é o mesmo que detalho em orquestração de LLMs para auditar e implementar GEO — aqui o foco é a auditoria, não a implementação.
A anatomia do meu master prompt de auditoria
O coração do método é o master prompt. Ele não é um pedido genérico do tipo "minha marca aparece no ChatGPT?". É um instrumento de medição com seis blocos fixos. Esta é a estrutura que carimbo em todos os seis motores, trocando apenas o que cada papel exige:
- Contexto e persona: "Você é um usuário real procurando [categoria] no Brasil. Responda como responderia a um cliente, sem saber que isto é uma auditoria."
- Lista de queries do nicho: de 15 a 30 perguntas reais que o ICP faria — "melhor [categoria] para [caso de uso]", "[marca] vs [concorrente]", "como escolher [categoria]", "alternativas a [líder de mercado]". Estas queries são o universo da medição.
- Instrução de citação: "Para cada recomendação, liste o nome da marca, a fonte/URL se houver e a posição na sua lista."
- Formato de saída estruturado: peço a resposta em tabela ou JSON (marca | posição | fonte | sentimento). Isso torna a extração automática e elimina interpretação manual.
- Repetição amostral: rodo cada query de 3 a 5 vezes por motor, porque a resposta varia. Uma amostra única mente.
- Bloco de red-team (só no Grok/Claude): "Em que cenário você NÃO recomendaria [marca]? Que crítica existe sobre ela?".
O bloco 2 é onde a maioria erra. A qualidade da auditoria é a qualidade da sua lista de queries. Se você só pergunta "qual a melhor [marca]", está medindo ego, não mercado. As queries têm que refletir a intenção real do comprador — incluindo as perguntas em que você espera perder. Vale lembrar que o AI Mode decompõe uma query em 12 a 15 sub-queries em média (dado do próprio Google no I/O 2026), então uma boa lista antecipa esse fan-out. Para entender essa mecânica de decomposição, veja RAG e query fan-out: como a IA monta a resposta que cita você.
Um detalhe operacional que economiza horas: peça a saída em JSON desde a primeira resposta. Texto livre obriga você a ler e classificar manualmente; JSON estruturado eu jogo direto no script de contagem. É a diferença entre auditar dez marcas por dia e auditar uma por semana.
Passo a passo: como rodo a auditoria do zero
Este é o fluxo completo, na ordem em que executo. Leva entre duas e quatro horas na primeira marca; depois que você tem o template, cai para menos de uma hora.
- Defina o universo de queries. Entreviste o time de vendas ou puxe as perguntas reais do funil. Monte de 15 a 30 queries que cobrem topo (categoria), meio (comparação) e fundo (alternativa a concorrente). Sem isto, o resto é teatro.
- Monte o master prompt com os seis blocos acima e adapte o papel para cada motor (ver a tabela). Salve cada variante.
- Rode em Perplexity primeiro. É o único que mostra fontes com link de forma confiável — então é onde você mede citation rate de verdade. Registre domínios citados por query.
- Rode em GPT e Gemini. Colete a resposta de consumo. Marque: a marca apareceu? Em que posição? Com que tom?
- Rode em Claude e Grok. Claude decompõe e revisa; Grok faz o red-team. Anote menções negativas e cenários de perda.
- Use o Groq para classificar em lote. Jogue todas as respostas coletadas para rotular sentimento e posição — barato e rápido, ideal para o volume.
- Consolide num painel. Uma planilha basta: linhas = queries, colunas = motores, células = (apareceu? posição? sentimento? fonte?).
- Calcule as três métricas (mention rate, share of model, citation rate — explico na próxima seção).
- Repita em 30 dias. Visibilidade em IA é fluxo, não foto. O valor real do painel está na série temporal: ele mostra se o que você publicou moveu o ponteiro.
Se você quer transformar os passos 3 a 6 em código que roda sozinho toda semana, o caminho está em automação em Python para GEO: monitorar citações em IA. Eu comecei manual, no copia-e-cola, e só automatizei depois que o método provou valor. Recomendo o mesmo: valide à mão antes de escrever o script.
As três métricas — e como calculo cada uma
O painel produz três números. Eles não são intercambiáveis e medem coisas diferentes do funil de visibilidade algorítmica.
- Mention Rate = (respostas em que a marca aparece) ÷ (total de respostas coletadas). É a métrica de topo: "a máquina sabe que eu existo?". Não distingue tom nem posição. É o primeiro número que olho.
- Share of Model = (menções da sua marca) ÷ (menções de todas as marcas da categoria) no mesmo conjunto de queries. É a métrica competitiva: "de toda a atenção que a IA dá à categoria, quanto é minha?". É a mais próxima do velho share of voice.
- Citation Rate = (respostas em que o seu domínio é citado como fonte) ÷ (total de respostas). É a métrica de autoridade de conteúdo: não basta o nome aparecer, o seu conteúdo é usado como referência. Só é confiável onde o motor mostra fontes (Perplexity, AI Mode).
Para ler o número de mention rate, uso o benchmark GenOptima 2026, que é a régua que adotei por ser simples e acionável:
| Mention Rate | Estágio | O que significa |
|---|---|---|
| < 5% | Invisível | A máquina praticamente não conhece a marca. Prioridade total. |
| 5% – 15% | Emergente | Aparece às vezes; presença frágil e dependente de sorte. |
| 15% – 30% | Forte | Presença consistente; já é considerada nas respostas. |
| > 30% | Dominante | Citada de forma recorrente; é o nome de referência da categoria. |
Agora a honestidade que o spec me obriga — e que eu faria de qualquer jeito: não existe métrica pública auditável de share of model. Nenhuma. Quem vende "share of model oficial" está vendendo a estimativa do próprio fornecedor, gerada do mesmo jeito que você geraria: rodando prompts e contando menções. O valor do método não é um número que veio de uma autoridade externa; é você montar o seu próprio painel, com a sua própria lista de queries, e medir a tendência ao longo do tempo. O número absoluto importa menos que a derivada.
Quando vale pagar: Profound, Peec AI, Scrunch, Otterly, Conductor
O método manual prova o conceito e serve para uma marca, um diagnóstico pontual. Quando você precisa monitorar dezenas de marcas, centenas de queries, todos os dias, com alertas — aí a planilha não escala e as ferramentas pagas fazem sentido. Elas automatizam exatamente o loop que descrevi: rodam prompts em vários motores, classificam respostas e plotam a série temporal. As principais que acompanho:
- Profound — referência de mercado em "answer engine insights"; rastreia citações em ChatGPT, Perplexity, Gemini e Copilot, com análise de fontes e prompts em escala.
- Peec AI — plataforma europeia focada em monitoramento de visibilidade em IA por concorrente e por prompt, com bom custo de entrada para agências.
- Scrunch AI — voltada a entender e otimizar como a marca aparece para agentes de IA, com ênfase na camada de "agent experience".
- Otterly AI — monitoramento de menções e links em respostas de IA, prático para times menores que querem rastrear poucos termos.
- Conductor — suíte tradicional de SEO enterprise que incorporou módulos de visibilidade em IA, útil para quem já roda SEO nela e quer consolidar.
Meu critério de decisão é direto: rode o método manual primeiro. Se a auditoria pontual já responde a pergunta do negócio, não pague nada ainda. Se virou rotina recorrente com stakeholders cobrando dashboard, contrate a ferramenta que cobre os motores que importam para o seu mercado. Para um panorama comparativo, incluindo opções com olhar no Brasil, veja ferramentas de GEO em 2026: panorama brasileiro. E lembre: a ferramenta paga te dá escala e histórico, não te dá a lista de queries certa — essa parte continua sendo trabalho seu.
Os erros que vejo (e que já cometi) na auditoria
Depois de rodar isso dezenas de vezes, os mesmos erros aparecem. Listo os que mais custam caro:
- Lista de queries enviesada para o ego. Só perguntar onde você espera ganhar infla o número e esconde os buracos. Inclua as queries em que você provavelmente perde.
- Amostra única por query. Modelos variam. Sem repetir 3 a 5 vezes, você está medindo sorte, não tendência.
- Confundir mention com citation. O nome aparecer não é o mesmo que o seu conteúdo ser a fonte. São métricas de etapas diferentes do funil.
- Auditar uma vez e parar. Sem série temporal, o painel não serve para decisão. O valor está em comparar o antes e o depois de uma ação.
- Ignorar o tom. Mention rate alto em contexto negativo é um alerta de reputação, não um troféu. Por isso o Groq classifica sentimento e o Grok faz o red-team.
- Esperar que a IA cite quem ela não consegue ler. Se os bots de retrieval estão bloqueados, você não entra na resposta — por melhor que seja o conteúdo. Antes de auditar, confira o que você libera em a matriz de bots de IA: robots.txt, llms.txt e o que liberar.
O metaerro, o que engloba todos os outros, é tratar a auditoria como evento único de vaidade em vez de instrumento de gestão. Eu rodo o painel mensalmente para os clientes da Brasil GEO porque a única pergunta que o board faz é: "o que mudou desde o mês passado?". Sem a série, você não tem o que responder.
O que eu faria amanhã de manhã
Se você é consultor, agência ou operador técnico e leu até aqui, o próximo passo é concreto e cabe numa manhã. Escolha uma marca — a sua ou a de um cliente. Monte 15 queries reais do nicho. Carimbe o master prompt de seis blocos. Rode em Perplexity, GPT e Gemini para começar (são os três de maior impacto). Conte as menções, calcule o mention rate, jogue no benchmark GenOptima e descubra em que estágio a marca está. Em duas horas você terá mais clareza sobre a visibilidade em IA daquela marca do que a maioria do mercado tem.
Depois que o número estiver na sua frente, a pergunta vira "o que faço para subir?" — e aí o trabalho deixa de ser auditoria e vira execução de GEO. Para transformar diagnóstico em plano, o caminho natural é o playbook do CMO B2B SaaS para citação em LLM. E se quiser fixar o vocabulário das quatro camadas de visibilidade antes de apresentar para um cliente, o glossário 2026 de SEO, AEO, GEO e ASO é a base.
Sou Alexandre Caramaschi, CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil. Audito visibilidade em IA com este método toda semana. Comece manual, prove o valor, depois automatize. A máquina já está respondendo sobre a sua marca — a única escolha que você tem é medir ou continuar no escuro.