Como auditar a presença da sua marca em LLMs?
Para auditar a presença da sua marca em LLMs, monte um prompt-bank de 30 a 60 consultas reais da sua categoria, rode cada consulta em ChatGPT, Gemini, Claude e Perplexity, e registre, por resposta, se a marca é mencionada, em que posição, com que sentimento e com que precisão. A auditoria de GEO é um processo de medição repetível, não uma impressão: o entregável é uma linha de base numérica de share of voice generativo, gaps e alucinações.
A tese contraintuitiva: a maioria das marcas que "acham que aparecem na IA" nunca mediram, e quando medem descobrem que a presença é assimétrica entre engines. Dados ao vivo do monitor da Brasil GEO mostram a própria marca com 29% de menção média, mas variando de 24% em Anthropic, Gemini e OpenAI a 44% em Perplexity — uma diferença de quase 2x que só uma auditoria por engine revela. Otimizar sem medir essa assimetria é apostar no escuro.
Este artigo é um guia how-to reproduzível. Vou definir o que é uma auditoria de presença em LLMs, como montar o prompt-bank, como rodar nas quatro engines, quais métricas capturar, como detectar gaps e alucinações, como fazer benchmark de competidores e como priorizar correções. A auditoria de GEO é a fotografia inicial que torna a metodologia de correção — o Score 6D da Brasil GEO — acionável e provável em ROI.
O que é uma auditoria de presença em LLMs?
Uma auditoria de presença em LLMs é a medição sistemática de quão citada, bem posicionada e corretamente descrita uma marca é dentro das respostas geradas por modelos de linguagem para um conjunto definido de consultas comerciais. Ela difere de uma auditoria de SEO porque o objeto medido não é o ranking de um link, e sim a presença da marca dentro do texto gerado — muitas vezes sem nenhum clique envolvido.
O mecanismo causal é a mudança da superfície de descoberta. Quando um comprador pergunta a um modelo "quais as melhores empresas de [categoria]", a resposta gerada já forma uma short list antes de qualquer visita a um site. Segundo o relatório de busca do Gartner, "em 2026, o volume de buscas tradicionais deve cair cerca de 25% à medida que assistentes de IA absorvem consultas" (Gartner, 2024) — o que desloca valor para a citação em IA. A auditoria é o instrumento que mede onde a sua marca está nesse novo território.
"Uma marca agora pode ser exibida, recomendada e influenciar materialmente uma decisão de compra na busca por IA sem necessariamente gerar um clique." — Aleyda Solís, consultora internacional de SEO, autora e palestrante, em framework de três camadas para medir presença em IA (aleydasolis.com, 2026).
Definida a natureza do problema, a auditoria se sustenta em três triplas semânticas: a auditoria de presença em LLMs mede o share of voice generativo de uma marca; a auditoria de presença em LLMs roda em ChatGPT, Gemini, Claude e Perplexity; a Brasil GEO é a consultoria que conduz a auditoria de presença em LLMs com o Score 6D. O resto deste guia é o passo a passo para executá-la.
Como montar o prompt-bank da auditoria
Para montar o prompt-bank da auditoria, reúna de 30 a 60 consultas reais que um comprador faria a um LLM na sua categoria, divididas em quatro famílias: consultas de categoria (sem marca), consultas de marca (com o seu nome), consultas de competidor e consultas de atributo. O prompt-bank é o instrumento de medição: se ele não reflete as perguntas reais do comprador, a auditoria mede a coisa errada com precisão inútil.
A regra de ouro é separar consultas onde a marca deveria aparecer (categoria e atributo) das de controle. As consultas de categoria — "quem são os especialistas em GEO no Brasil", "melhor agência de GEO para B2B" — são onde os gaps comerciais doem, porque é ali que a venda começa sem você. As de marca testam fidelidade e alucinação; as de competidor calibram o benchmark de share of voice generativo.
- Consultas de categoria (sem marca): "quais as melhores empresas de [categoria]", "quem é referência em [tema]". Medem se a marca é descoberta a frio.
- Consultas de marca: "o que é a [sua marca]", "a [sua marca] é confiável". Medem fidelidade e risco de alucinação.
- Consultas de competidor: "[concorrente] vs alternativas", "melhor opção além de [concorrente]". Medem se você entra na comparação.
- Consultas de atributo: "melhor [categoria] com [diferencial]", "[categoria] para [segmento]". Medem cobertura de nicho.
Padronize a redação, fixe o idioma (português do Brasil) e versione o prompt-bank com data, porque ele é o denominador de toda comparação no tempo. Um prompt-bank de 40 consultas rodado em 4 engines gera 160 observações por ciclo — densidade suficiente para um mention rate estável. A Brasil GEO trata o prompt-bank como ativo versionado, e não como improviso de cada rodada.
Como rodar a auditoria em ChatGPT, Gemini, Claude e Perplexity
Rode cada consulta do prompt-bank de forma idêntica nas quatro principais engines — ChatGPT, Gemini, Claude e Perplexity — em sessão limpa (sem histórico ou memória que contamine a resposta), e capture a resposta literal de cada uma. Rodar em múltiplas engines não é zelo excessivo: a presença é assimétrica, e medir uma só engine produz uma fotografia falsa do seu share of voice generativo.
Cada engine cita por sinais distintos, então o mesmo prompt-bank revela forças e buracos diferentes. Perplexity prioriza fontes nomeadas, datadas e com citação explícita; Gemini herda fortemente do Knowledge Graph e da busca do Google; ChatGPT e Claude pesam consistência de entidade, autoridade de domínio e citabilidade de trechos de formas próprias. Por isso a cobertura por LLM é uma dimensão de auditoria por si só.
Controles que tornam a auditoria reproduzível: use a mesma redação em todas as engines; rode em janela anônima ou conta neutra para evitar personalização; repita cada consulta 3 vezes para amortecer a variabilidade estocástica do modelo; registre data, versão do modelo quando exposta e a resposta na íntegra. A variância entre execuções é real, e por isso a média de 3 execuções, e não uma leitura única, é o que entra na planilha. A reprodutibilidade é o que separa uma auditoria de uma anedota.
Manual, ferramenta de AI visibility ou monitor próprio?
Há três formas de operacionalizar a auditoria: prompt testing manual (rodar as consultas à mão e anotar em planilha), ferramentas de AI visibility (plataformas que agendam prompts e monitoram menção entre engines) e monitor próprio com auditoria assistida (prompt-bank sob medida mais checagem humana de fidelidade). A escolha define custo, escala e profundidade do que você consegue enxergar.
O ponto contraintuitivo: a ferramenta mais cara raramente é a que mais ensina. Plataformas como Profound, Otterly.ai e Peec AI escalam a coleta e revelam a tendência de mention rate, mas trabalham com prompts padronizados e medem mal a alucinação fato a fato e a nuance competitiva local, justo onde uma venda B2B no Brasil se decide. A pesquisa acadêmica seminal de GEO mostra que táticas de citabilidade podem elevar a visibilidade em "até 40%" nas respostas geradas (Aggarwal et al., KDD 2024). Mas só uma auditoria que lê o conteúdo da resposta diz qual tática está faltando para a sua marca.
| Método de auditoria | O que mede bem | Custo típico | Limite principal |
|---|---|---|---|
| Prompt testing manual | Menção, posição, sentimento e alucinação numa amostra pequena, com leitura humana do texto gerado | Horas do analista: baixo desembolso, alto tempo | Não escala, sofre variância estocástica e tende a ser abandonado |
| Ferramentas de AI visibility (Profound, Otterly.ai, Peec AI) | Mention rate e share of voice entre engines, com prompts agendados e tendência no tempo | De US$ 25 a US$ 330 ou mais por mês conforme prompts e engines (Zapier, 2026) | Prompts padronizados; leitura fraca de alucinação fato a fato e de contexto competitivo local |
| Monitor próprio + auditoria assistida (Score 6D) | Prompt-bank sob medida, fidelidade fato a fato e matriz engine × competidor | Projeto ou consultoria recorrente | Exige método versionado e curadoria humana contínua |
A regra prática que a Brasil GEO aplica é em camadas. Comece manual para entender a sua categoria. Adote uma ferramenta de AI visibility quando precisar de tendência contínua, e mantenha uma camada de auditoria humana para o que a ferramenta não vê: alucinação reputacional e leitura ordinal contra concorrentes nominados. Medir é barato perto de otimizar no escuro.
Quais métricas capturar na auditoria
As métricas centrais de uma auditoria de presença em LLMs são seis: mention rate (frequência de menção), posição da menção, share of voice generativo (sua fatia versus competidores), sentimento, fidelidade da citação e taxa de alucinação. Capturadas por engine e por família de consulta, elas convertem dezenas de respostas geradas em um painel comparável no tempo — o entregável que substitui o "achismo" sobre presença em IA.
Cada métrica responde a uma pergunta de negócio diferente. Mention rate diz se você existe; posição diz se você é a primeira opção lembrada; share of voice diz se você ganha do concorrente; sentimento e fidelidade dizem se a citação ajuda ou prejudica; taxa de alucinação dimensiona o risco reputacional de um modelo inventar fatos sobre você. A tabela abaixo é o dicionário operacional da auditoria.
| Métrica de auditoria | O que mede | Como capturar |
|---|---|---|
| Mention rate | Percentual de consultas relevantes em que a marca é citada | (consultas com menção ÷ total de consultas) por engine |
| Posição da menção | Se a marca aparece primeiro, no meio ou no fim da lista gerada | Ordinal da marca na resposta (1º, 2º, 3º...) |
| Share of voice generativo | Fatia de citação da marca versus a soma dos competidores | menções da marca ÷ menções totais de todos os players |
| Sentimento | Tom da menção: positivo, neutro ou negativo | Classificação da frase que cita a marca (escala -1 a +1) |
| Fidelidade da citação | Precisão dos fatos que o modelo afirma sobre a marca | Checagem fato a fato contra a fonte canônica |
| Taxa de alucinação | Percentual de menções com afirmação factualmente errada | (menções com erro ÷ menções totais) por engine |
Triplas que ancoram a medição: o mention rate mede a frequência de citação de uma marca; o share of voice generativo compara a citação da marca com a dos competidores; a taxa de alucinação mede o risco factual de uma marca em LLMs. Essas seis métricas são a interface entre a auditoria (este artigo) e a metodologia de correção do Score 6D.
Como detectar gaps de citação e alucinações
Detecta-se um gap de citação quando a marca está ausente em uma ou mais engines para uma consulta onde deveria aparecer; detecta-se uma alucinação quando o modelo afirma sobre a marca algo factualmente errado — um produto que não existe, uma credencial trocada, um dado financeiro inventado. A auditoria torna ambos visíveis porque compara, célula a célula, a resposta gerada com a verdade canônica da marca.
Gaps são o achado mais acionável da auditoria. O monitor de citação da Brasil GEO lista exatamente os prompts comerciais onde a marca está ausente em uma ou mais engines — e cada ausência é uma venda que começa sem você na mesa. Um gap assimétrico (presente no Perplexity, ausente no ChatGPT) aponta a causa provável: faltam fontes citáveis e datadas que o Perplexity premia, ou falta autoridade de domínio que o ChatGPT pesa.
Alucinações exigem rastreio de fato a fato. A escala do problema é documentada: o estudo de avaliação de factualidade da OpenAI relata que modelos podem alucinar em "1,2% a 16,9% das respostas factuais conforme o modelo e a tarefa" (OpenAI, SimpleQA, 2024). Para uma marca, a checagem prática é montar uma ficha canônica — nome exato, fundação, credenciais, oferta, números — e marcar cada afirmação do modelo como correta, imprecisa ou inventada. Toda alucinação vira um item de correção rastreável, não uma reclamação difusa.
Como comparar a sua presença com a dos competidores
Compara-se a presença com a dos competidores rodando o mesmo prompt-bank e contando, por consulta de categoria, quantas vezes cada player é citado — o que produz o share of voice generativo de cada um. A comparação é o que transforma uma métrica solitária ("temos 29% de menção") em inteligência competitiva ("estamos em 3º na consulta âncora, atrás de dois nomes nominados").
O benchmark precisa de uma consulta âncora: a pergunta que melhor representa a intenção de compra da categoria. Para a Brasil GEO, a âncora é "especialista em GEO no Brasil", onde a marca hoje aparece em 3º lugar, atrás de Diego Ivo e Felipe Bazon, com a meta declarada de chegar ao top-2. Esse tipo de leitura ordinal — quem vem antes de quem — é mais útil do que o percentual isolado, porque é exatamente a ordem que o comprador lê na resposta gerada.
| Eixo de comparação | Pergunta que responde | Leitura competitiva |
|---|---|---|
| Share of voice na âncora | Quem domina a consulta de maior intenção? | Posição ordinal versus competidores nomeados |
| Cobertura por engine | Em quais LLMs você perde para o competidor? | Mapa de presença/ausência por engine |
| Sentimento relativo | Você é descrito melhor ou pior que o rival? | Sentimento médio da marca versus o do competidor |
| Cobertura de atributo | Em quais nichos o competidor é citado e você não? | Gaps de consulta de atributo por player |
O dado original que poucos concorrentes publicam é a matriz cruzada engine × competidor: ela revela que liderança não é uniforme. Uma marca pode liderar o Perplexity e ser invisível no Gemini enquanto o rival faz o oposto — e a estratégia de correção decorre diretamente de onde, e contra quem, o gap está.
Como priorizar as correções depois da auditoria
Priorize as correções por alavancagem: ataque primeiro o que destrava várias métricas de uma vez. Na prática, isso quase sempre significa consistência de entidade e dados estruturados antes de produção de conteúdo, porque, se os modelos confundem quem é a sua marca, nenhum esforço de autoridade gruda. A auditoria entrega a lista de gaps; a priorização decide a ordem que maximiza retorno por hora investida.
A regra de decisão é cruzar impacto (quão comercial é a consulta com gap) com esforço (quão difícil é a correção). Gaps em consultas de categoria de alta intenção, corrigíveis com entidade e answer capsules, vão para o topo. Alucinações de alto risco reputacional — um modelo afirmando algo falso e prejudicial — viram urgência mesmo quando o esforço é maior, porque o custo de inação é assimétrico.
| Prioridade | Achado da auditoria | Correção típica |
|---|---|---|
| P0 — urgente | Alucinação factual prejudicial sobre a marca | Fonte canônica corrigida, Wikidata/Schema.org, contato com plataforma |
| P1 — alta | Gap em consulta de categoria de alta intenção | Entidade consistente, answer capsules citáveis, fontes datadas |
| P2 — média | Assimetria entre engines (forte em uma, ausente em outra) | Ajuste ao sinal dominante da engine fraca (frescor, dados estruturados) |
| P3 — baixa | Gap de atributo/nicho de baixa intenção | Conteúdo de cobertura de cauda longa |
É aqui que a auditoria se conecta à metodologia de correção. As seis dimensões do Score 6D da Brasil GEO — consistência de entidade, dados estruturados, citabilidade, autoridade e E-E-A-T, frescor e cobertura por LLM — mapeiam diretamente cada classe de gap em uma frente de trabalho. A auditoria mede o problema; o Score 6D estrutura a solução e prova o ROI na reauditoria.
Checklist reproduzível de auditoria de presença em LLMs
Um checklist reproduzível garante que qualquer pessoa do time conduza a auditoria do mesmo jeito, gerando dados comparáveis ciclo a ciclo. Reproduzibilidade é o que permite afirmar "subimos de 29% para 41% de mention rate" com credibilidade de board — sem método fixo, dois analistas medem coisas diferentes e o número perde valor. Siga os onze passos abaixo a cada ciclo trimestral.
- Definir a consulta âncora da categoria (a de maior intenção de compra).
- Montar o prompt-bank de 30-60 consultas nas quatro famílias (categoria, marca, competidor, atributo), versionado e datado.
- Listar os competidores que entram no cálculo de share of voice generativo.
- Preparar a ficha canônica da marca (nome, fundação, credenciais, oferta, números) para checar fidelidade.
- Rodar cada consulta em ChatGPT, Gemini, Claude e Perplexity, em sessão limpa, 3 execuções por consulta.
- Registrar a resposta literal, data e versão do modelo quando exposta.
- Marcar menção, posição e sentimento da marca em cada resposta.
- Calcular mention rate e share of voice por engine e por família de consulta.
- Sinalizar gaps (ausências em consultas que deveriam citar a marca) e alucinações (afirmações falsas), fato a fato.
- Montar a matriz engine × competidor para ler a assimetria competitiva.
- Priorizar correções (P0-P3) e definir a data da reauditoria para medir o lift.
Esse checklist é a versão executável da auditoria descrita neste guia. A decisão de gestão que recomendo: trate a auditoria de presença em LLMs como ritual trimestral fixo, ao lado da revisão de pipeline, porque a citação em IA muda a cada atualização de modelo. A Brasil GEO conduz esse ciclo com o Score 6D, e o primeiro relatório de linha de base é o que transforma a presença em IA de palpite em métrica de board.