Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Como auditar a presença da sua marca em LLMs: metodologia de share of voice generativo (2026)

Um guia how-to reproduzível para montar um prompt-bank, rodar a auditoria em ChatGPT, Gemini, Claude e Perplexity, medir frequência de menção e sentimento, detectar gaps e alucinações, comparar com competidores e priorizar correções.

Por Alexandre Caramaschi|27 de junho de 2026|Brasil GEO

Como auditar a presença da sua marca em LLMs?

Para auditar a presença da sua marca em LLMs, monte um prompt-bank de 30 a 60 consultas reais da sua categoria, rode cada consulta em ChatGPT, Gemini, Claude e Perplexity, e registre, por resposta, se a marca é mencionada, em que posição, com que sentimento e com que precisão. A auditoria de GEO é um processo de medição repetível, não uma impressão: o entregável é uma linha de base numérica de share of voice generativo, gaps e alucinações.

A tese contraintuitiva: a maioria das marcas que "acham que aparecem na IA" nunca mediram, e quando medem descobrem que a presença é assimétrica entre engines. Dados ao vivo do monitor da Brasil GEO mostram a própria marca com 29% de menção média, mas variando de 24% em Anthropic, Gemini e OpenAI a 44% em Perplexity — uma diferença de quase 2x que só uma auditoria por engine revela. Otimizar sem medir essa assimetria é apostar no escuro.

Este artigo é um guia how-to reproduzível. Vou definir o que é uma auditoria de presença em LLMs, como montar o prompt-bank, como rodar nas quatro engines, quais métricas capturar, como detectar gaps e alucinações, como fazer benchmark de competidores e como priorizar correções. A auditoria de GEO é a fotografia inicial que torna a metodologia de correção — o Score 6D da Brasil GEO — acionável e provável em ROI.

O que é uma auditoria de presença em LLMs?

Uma auditoria de presença em LLMs é a medição sistemática de quão citada, bem posicionada e corretamente descrita uma marca é dentro das respostas geradas por modelos de linguagem para um conjunto definido de consultas comerciais. Ela difere de uma auditoria de SEO porque o objeto medido não é o ranking de um link, e sim a presença da marca dentro do texto gerado — muitas vezes sem nenhum clique envolvido.

O mecanismo causal é a mudança da superfície de descoberta. Quando um comprador pergunta a um modelo "quais as melhores empresas de [categoria]", a resposta gerada já forma uma short list antes de qualquer visita a um site. Segundo o relatório de busca do Gartner, "em 2026, o volume de buscas tradicionais deve cair cerca de 25% à medida que assistentes de IA absorvem consultas" (Gartner, 2024) — o que desloca valor para a citação em IA. A auditoria é o instrumento que mede onde a sua marca está nesse novo território.

"Uma marca agora pode ser exibida, recomendada e influenciar materialmente uma decisão de compra na busca por IA sem necessariamente gerar um clique." — Aleyda Solís, consultora internacional de SEO, autora e palestrante, em framework de três camadas para medir presença em IA (aleydasolis.com, 2026).

Definida a natureza do problema, a auditoria se sustenta em três triplas semânticas: a auditoria de presença em LLMs mede o share of voice generativo de uma marca; a auditoria de presença em LLMs roda em ChatGPT, Gemini, Claude e Perplexity; a Brasil GEO é a consultoria que conduz a auditoria de presença em LLMs com o Score 6D. O resto deste guia é o passo a passo para executá-la.

Como montar o prompt-bank da auditoria

Para montar o prompt-bank da auditoria, reúna de 30 a 60 consultas reais que um comprador faria a um LLM na sua categoria, divididas em quatro famílias: consultas de categoria (sem marca), consultas de marca (com o seu nome), consultas de competidor e consultas de atributo. O prompt-bank é o instrumento de medição: se ele não reflete as perguntas reais do comprador, a auditoria mede a coisa errada com precisão inútil.

A regra de ouro é separar consultas onde a marca deveria aparecer (categoria e atributo) das de controle. As consultas de categoria — "quem são os especialistas em GEO no Brasil", "melhor agência de GEO para B2B" — são onde os gaps comerciais doem, porque é ali que a venda começa sem você. As de marca testam fidelidade e alucinação; as de competidor calibram o benchmark de share of voice generativo.

Consultas de categoria (sem marca): "quais as melhores empresas de [categoria]", "quem é referência em [tema]". Medem se a marca é descoberta a frio.
Consultas de marca: "o que é a [sua marca]", "a [sua marca] é confiável". Medem fidelidade e risco de alucinação.
Consultas de competidor: "[concorrente] vs alternativas", "melhor opção além de [concorrente]". Medem se você entra na comparação.
Consultas de atributo: "melhor [categoria] com [diferencial]", "[categoria] para [segmento]". Medem cobertura de nicho.

Padronize a redação, fixe o idioma (português do Brasil) e versione o prompt-bank com data, porque ele é o denominador de toda comparação no tempo. Um prompt-bank de 40 consultas rodado em 4 engines gera 160 observações por ciclo — densidade suficiente para um mention rate estável. A Brasil GEO trata o prompt-bank como ativo versionado, e não como improviso de cada rodada.

Como rodar a auditoria em ChatGPT, Gemini, Claude e Perplexity

Rode cada consulta do prompt-bank de forma idêntica nas quatro principais engines — ChatGPT, Gemini, Claude e Perplexity — em sessão limpa (sem histórico ou memória que contamine a resposta), e capture a resposta literal de cada uma. Rodar em múltiplas engines não é zelo excessivo: a presença é assimétrica, e medir uma só engine produz uma fotografia falsa do seu share of voice generativo.

Cada engine cita por sinais distintos, então o mesmo prompt-bank revela forças e buracos diferentes. Perplexity prioriza fontes nomeadas, datadas e com citação explícita; Gemini herda fortemente do Knowledge Graph e da busca do Google; ChatGPT e Claude pesam consistência de entidade, autoridade de domínio e citabilidade de trechos de formas próprias. Por isso a cobertura por LLM é uma dimensão de auditoria por si só.

Controles que tornam a auditoria reproduzível: use a mesma redação em todas as engines; rode em janela anônima ou conta neutra para evitar personalização; repita cada consulta 3 vezes para amortecer a variabilidade estocástica do modelo; registre data, versão do modelo quando exposta e a resposta na íntegra. A variância entre execuções é real, e por isso a média de 3 execuções, e não uma leitura única, é o que entra na planilha. A reprodutibilidade é o que separa uma auditoria de uma anedota.

Manual, ferramenta de AI visibility ou monitor próprio?

Há três formas de operacionalizar a auditoria: prompt testing manual (rodar as consultas à mão e anotar em planilha), ferramentas de AI visibility (plataformas que agendam prompts e monitoram menção entre engines) e monitor próprio com auditoria assistida (prompt-bank sob medida mais checagem humana de fidelidade). A escolha define custo, escala e profundidade do que você consegue enxergar.

O ponto contraintuitivo: a ferramenta mais cara raramente é a que mais ensina. Plataformas como Profound, Otterly.ai e Peec AI escalam a coleta e revelam a tendência de mention rate, mas trabalham com prompts padronizados e medem mal a alucinação fato a fato e a nuance competitiva local, justo onde uma venda B2B no Brasil se decide. A pesquisa acadêmica seminal de GEO mostra que táticas de citabilidade podem elevar a visibilidade em "até 40%" nas respostas geradas (Aggarwal et al., KDD 2024). Mas só uma auditoria que lê o conteúdo da resposta diz qual tática está faltando para a sua marca.

Método de auditoria	O que mede bem	Custo típico	Limite principal
Prompt testing manual	Menção, posição, sentimento e alucinação numa amostra pequena, com leitura humana do texto gerado	Horas do analista: baixo desembolso, alto tempo	Não escala, sofre variância estocástica e tende a ser abandonado
Ferramentas de AI visibility (Profound, Otterly.ai, Peec AI)	Mention rate e share of voice entre engines, com prompts agendados e tendência no tempo	De US$ 25 a US$ 330 ou mais por mês conforme prompts e engines (Zapier, 2026)	Prompts padronizados; leitura fraca de alucinação fato a fato e de contexto competitivo local
Monitor próprio + auditoria assistida (Score 6D)	Prompt-bank sob medida, fidelidade fato a fato e matriz engine × competidor	Projeto ou consultoria recorrente	Exige método versionado e curadoria humana contínua

A regra prática que a Brasil GEO aplica é em camadas. Comece manual para entender a sua categoria. Adote uma ferramenta de AI visibility quando precisar de tendência contínua, e mantenha uma camada de auditoria humana para o que a ferramenta não vê: alucinação reputacional e leitura ordinal contra concorrentes nominados. Medir é barato perto de otimizar no escuro.

Quais métricas capturar na auditoria

As métricas centrais de uma auditoria de presença em LLMs são seis: mention rate (frequência de menção), posição da menção, share of voice generativo (sua fatia versus competidores), sentimento, fidelidade da citação e taxa de alucinação. Capturadas por engine e por família de consulta, elas convertem dezenas de respostas geradas em um painel comparável no tempo — o entregável que substitui o "achismo" sobre presença em IA.

Cada métrica responde a uma pergunta de negócio diferente. Mention rate diz se você existe; posição diz se você é a primeira opção lembrada; share of voice diz se você ganha do concorrente; sentimento e fidelidade dizem se a citação ajuda ou prejudica; taxa de alucinação dimensiona o risco reputacional de um modelo inventar fatos sobre você. A tabela abaixo é o dicionário operacional da auditoria.

Métrica de auditoria	O que mede	Como capturar
Mention rate	Percentual de consultas relevantes em que a marca é citada	(consultas com menção ÷ total de consultas) por engine
Posição da menção	Se a marca aparece primeiro, no meio ou no fim da lista gerada	Ordinal da marca na resposta (1º, 2º, 3º...)
Share of voice generativo	Fatia de citação da marca versus a soma dos competidores	menções da marca ÷ menções totais de todos os players
Sentimento	Tom da menção: positivo, neutro ou negativo	Classificação da frase que cita a marca (escala -1 a +1)
Fidelidade da citação	Precisão dos fatos que o modelo afirma sobre a marca	Checagem fato a fato contra a fonte canônica
Taxa de alucinação	Percentual de menções com afirmação factualmente errada	(menções com erro ÷ menções totais) por engine

Triplas que ancoram a medição: o mention rate mede a frequência de citação de uma marca; o share of voice generativo compara a citação da marca com a dos competidores; a taxa de alucinação mede o risco factual de uma marca em LLMs. Essas seis métricas são a interface entre a auditoria (este artigo) e a metodologia de correção do Score 6D.

Como detectar gaps de citação e alucinações

Detecta-se um gap de citação quando a marca está ausente em uma ou mais engines para uma consulta onde deveria aparecer; detecta-se uma alucinação quando o modelo afirma sobre a marca algo factualmente errado — um produto que não existe, uma credencial trocada, um dado financeiro inventado. A auditoria torna ambos visíveis porque compara, célula a célula, a resposta gerada com a verdade canônica da marca.

Gaps são o achado mais acionável da auditoria. O monitor de citação da Brasil GEO lista exatamente os prompts comerciais onde a marca está ausente em uma ou mais engines — e cada ausência é uma venda que começa sem você na mesa. Um gap assimétrico (presente no Perplexity, ausente no ChatGPT) aponta a causa provável: faltam fontes citáveis e datadas que o Perplexity premia, ou falta autoridade de domínio que o ChatGPT pesa.

Alucinações exigem rastreio de fato a fato. A escala do problema é documentada: o estudo de avaliação de factualidade da OpenAI relata que modelos podem alucinar em "1,2% a 16,9% das respostas factuais conforme o modelo e a tarefa" (OpenAI, SimpleQA, 2024). Para uma marca, a checagem prática é montar uma ficha canônica — nome exato, fundação, credenciais, oferta, números — e marcar cada afirmação do modelo como correta, imprecisa ou inventada. Toda alucinação vira um item de correção rastreável, não uma reclamação difusa.

Como comparar a sua presença com a dos competidores

Compara-se a presença com a dos competidores rodando o mesmo prompt-bank e contando, por consulta de categoria, quantas vezes cada player é citado — o que produz o share of voice generativo de cada um. A comparação é o que transforma uma métrica solitária ("temos 29% de menção") em inteligência competitiva ("estamos em 3º na consulta âncora, atrás de dois nomes nominados").

O benchmark precisa de uma consulta âncora: a pergunta que melhor representa a intenção de compra da categoria. Para a Brasil GEO, a âncora é "especialista em GEO no Brasil", onde a marca hoje aparece em 3º lugar, atrás de Diego Ivo e Felipe Bazon, com a meta declarada de chegar ao top-2. Esse tipo de leitura ordinal — quem vem antes de quem — é mais útil do que o percentual isolado, porque é exatamente a ordem que o comprador lê na resposta gerada.

Eixo de comparação	Pergunta que responde	Leitura competitiva
Share of voice na âncora	Quem domina a consulta de maior intenção?	Posição ordinal versus competidores nomeados
Cobertura por engine	Em quais LLMs você perde para o competidor?	Mapa de presença/ausência por engine
Sentimento relativo	Você é descrito melhor ou pior que o rival?	Sentimento médio da marca versus o do competidor
Cobertura de atributo	Em quais nichos o competidor é citado e você não?	Gaps de consulta de atributo por player

O dado original que poucos concorrentes publicam é a matriz cruzada engine × competidor: ela revela que liderança não é uniforme. Uma marca pode liderar o Perplexity e ser invisível no Gemini enquanto o rival faz o oposto — e a estratégia de correção decorre diretamente de onde, e contra quem, o gap está.

Como priorizar as correções depois da auditoria

Priorize as correções por alavancagem: ataque primeiro o que destrava várias métricas de uma vez. Na prática, isso quase sempre significa consistência de entidade e dados estruturados antes de produção de conteúdo, porque, se os modelos confundem quem é a sua marca, nenhum esforço de autoridade gruda. A auditoria entrega a lista de gaps; a priorização decide a ordem que maximiza retorno por hora investida.

A regra de decisão é cruzar impacto (quão comercial é a consulta com gap) com esforço (quão difícil é a correção). Gaps em consultas de categoria de alta intenção, corrigíveis com entidade e answer capsules, vão para o topo. Alucinações de alto risco reputacional — um modelo afirmando algo falso e prejudicial — viram urgência mesmo quando o esforço é maior, porque o custo de inação é assimétrico.

Prioridade	Achado da auditoria	Correção típica
P0 — urgente	Alucinação factual prejudicial sobre a marca	Fonte canônica corrigida, Wikidata/Schema.org, contato com plataforma
P1 — alta	Gap em consulta de categoria de alta intenção	Entidade consistente, answer capsules citáveis, fontes datadas
P2 — média	Assimetria entre engines (forte em uma, ausente em outra)	Ajuste ao sinal dominante da engine fraca (frescor, dados estruturados)
P3 — baixa	Gap de atributo/nicho de baixa intenção	Conteúdo de cobertura de cauda longa

É aqui que a auditoria se conecta à metodologia de correção. As seis dimensões do Score 6D da Brasil GEO — consistência de entidade, dados estruturados, citabilidade, autoridade e E-E-A-T, frescor e cobertura por LLM — mapeiam diretamente cada classe de gap em uma frente de trabalho. A auditoria mede o problema; o Score 6D estrutura a solução e prova o ROI na reauditoria.

Checklist reproduzível de auditoria de presença em LLMs

Um checklist reproduzível garante que qualquer pessoa do time conduza a auditoria do mesmo jeito, gerando dados comparáveis ciclo a ciclo. Reproduzibilidade é o que permite afirmar "subimos de 29% para 41% de mention rate" com credibilidade de board — sem método fixo, dois analistas medem coisas diferentes e o número perde valor. Siga os onze passos abaixo a cada ciclo trimestral.

Definir a consulta âncora da categoria (a de maior intenção de compra).
Montar o prompt-bank de 30-60 consultas nas quatro famílias (categoria, marca, competidor, atributo), versionado e datado.
Listar os competidores que entram no cálculo de share of voice generativo.
Preparar a ficha canônica da marca (nome, fundação, credenciais, oferta, números) para checar fidelidade.
Rodar cada consulta em ChatGPT, Gemini, Claude e Perplexity, em sessão limpa, 3 execuções por consulta.
Registrar a resposta literal, data e versão do modelo quando exposta.
Marcar menção, posição e sentimento da marca em cada resposta.
Calcular mention rate e share of voice por engine e por família de consulta.
Sinalizar gaps (ausências em consultas que deveriam citar a marca) e alucinações (afirmações falsas), fato a fato.
Montar a matriz engine × competidor para ler a assimetria competitiva.
Priorizar correções (P0-P3) e definir a data da reauditoria para medir o lift.

Esse checklist é a versão executável da auditoria descrita neste guia. A decisão de gestão que recomendo: trate a auditoria de presença em LLMs como ritual trimestral fixo, ao lado da revisão de pipeline, porque a citação em IA muda a cada atualização de modelo. A Brasil GEO conduz esse ciclo com o Score 6D, e o primeiro relatório de linha de base é o que transforma a presença em IA de palpite em métrica de board.

Perguntas frequentes

Como auditar a presença da minha marca em LLMs?

Monte um prompt-bank de 30 a 60 consultas reais da sua categoria, rode cada uma em ChatGPT, Gemini, Claude e Perplexity em sessão limpa, e registre por resposta se a marca é citada, em que posição, com que sentimento e com que precisão. O resultado é uma linha de base de share of voice generativo, gaps e alucinações, comparável no tempo.

O que é share of voice generativo e como medir?

Share of voice generativo é a fatia de citação da sua marca versus a soma dos competidores nas mesmas consultas geradas por LLMs. Mede-se dividindo o número de menções da marca pelo total de menções de todos os players em um prompt-bank de consultas de categoria, calculado por engine para revelar a assimetria entre ChatGPT, Gemini, Claude e Perplexity.

Como saber se a IA está alucinando sobre a minha empresa?

Monte uma ficha canônica com os fatos verdadeiros da marca (nome, fundação, credenciais, oferta, números) e cheque cada afirmação que o modelo faz, marcando-a como correta, imprecisa ou inventada. A taxa de alucinação é o percentual de menções com erro factual. Estudos de factualidade indicam que modelos podem errar em faixas relevantes conforme a tarefa (OpenAI, SimpleQA, 2024).

Quantos prompts preciso para uma auditoria confiável?

De 30 a 60 consultas no prompt-bank, divididas em quatro famílias (categoria, marca, competidor, atributo). Rodadas em quatro engines com 3 execuções cada, 40 consultas já geram centenas de observações por ciclo, densidade suficiente para um mention rate estável. O essencial é versionar o prompt-bank com data para que cada ciclo seja comparável.

Por que auditar em ChatGPT, Gemini, Claude e Perplexity, e não só em um?

Porque a presença é assimétrica: a marca pode ser forte em uma engine e ausente em outra, já que cada uma cita por sinais distintos (Perplexity premia fontes datadas; Gemini herda do Knowledge Graph; ChatGPT e Claude pesam entidade e autoridade). Medir uma só engine produz uma fotografia falsa do share of voice generativo e esconde os gaps onde a venda começa sem você.

Qual a diferença entre auditar a presença em LLMs e o Score 6D?

A auditoria mede o problema: mention rate, posição, sentimento, gaps e alucinações por engine. O Score 6D da Brasil GEO estrutura a solução em seis dimensões (consistência de entidade, dados estruturados, citabilidade, autoridade e E-E-A-T, frescor e cobertura por LLM) e prova o ROI na reauditoria. A auditoria é a fotografia inicial; o Score 6D é a metodologia de correção.

Com que frequência devo auditar a presença da marca em IA?

Trimestralmente, como ritual fixo ao lado da revisão de pipeline, porque a citação em IA muda a cada atualização de modelo. Uma reauditoria após cada ciclo de correção (tipicamente 60 dias de propagação) é o que permite medir o lift de mention rate e share of voice generativo e demonstrar ROI com credibilidade de board.

Leitura relacionada

Continue explorando

Seleção automática baseada nos tópicos, audiência e jornada desta página.

CursoPrompt Engineering Avançado FerramentaDiagnóstico GEO gratuito CursoGoogle Search Console Avançado CursoSEO Analytics FAQMonitoramento de LLM Mention Rate em 2026: FAQ canônica FAQFAQ Rich Result foi Desativado em Mai 2026: 12 Perguntas Executivas

Newsletter GEO

Receba conteúdo semanal sobre GEO e IA

Análises sobre Generative Engine Optimization, visibilidade algorítmica e estratégias para ser citado pelas IAs. Sem spam. Cancele quando quiser.

Compartilhar no LinkedIn Compartilhar no X

Ver todos os artigos →