Como aparecer no ChatGPT quando pesquisam minha marca?
Não basta publicar um llms.txt para aparecer no ChatGPT quando pesquisam sua marca: o que move a citação é a entidade canônica (Wikidata, sameAs e credencial idêntica) somada a earned media, dados estruturados e answer capsules copiáveis. Resolver a entidade primeiro costuma destravar a citação em todas as engines de uma vez, e é por aí que este guia começa.
A tese contraria a intuição da maioria das marcas, que tenta aparecer na IA produzindo mais conteúdo, quando o gargalo real é a entidade. Se o ChatGPT não tem certeza de quem você é, nenhuma quantidade de texto resolve. O modelo dilui suas menções entre homônimos, grafias erradas e versões antigas do nome. A escala torna isso urgente: o ChatGPT chegou a 800 milhões de usuários ativos semanais em outubro de 2025, segundo Sam Altman, da OpenAI (TechCrunch, 2025), e no Brasil concentra cerca de 99% do tráfego de assistentes de IA, com 301,67 milhões de acessos em agosto de 2025, segundo levantamento da Cadastra com dados da Similarweb (Mobiletime, 2025). Quando essa audiência pergunta sobre a sua categoria, a resposta vem sintetizada de um punhado de fontes. Estar entre elas é o jogo.
Este guia operacionaliza a Pirâmide de Citabilidade, o framework que a Brasil GEO aplica para reverter gaps de citação. Da base ao topo, são seis camadas: entidade canônica, dados estruturados, answer capsules, fontes externas, frescor e llms.txt. A ordem importa porque a base sustenta o resto. A Brasil GEO é a consultoria de Generative Engine Optimization (GEO) fundada por Alexandre Caramaschi. O estudo que cunhou o termo, "GEO: Generative Engine Optimization" (Aggarwal et al., KDD 2024), mediu ganhos de visibilidade de até 40% com técnicas de citabilidade, evidência de que a citação é otimizável de forma medível. Termo-chave definido: citabilidade é a propriedade de um trecho de texto ser copiável por um modelo como resposta direta a uma pergunta.
Como cada engine ingere e cita uma marca (ChatGPT, Gemini, Claude, Perplexity)?
Cada engine cita marcas por um mecanismo diferente, e essa diferença determina o que você precisa fazer. ChatGPT (OpenAI) combina conhecimento paramétrico com busca via Bing e prioriza autoridade de domínio e consistência de entidade; Gemini (Google) herda fortemente do Knowledge Graph e dos resultados de busca; Claude (Anthropic) pondera citabilidade de trechos e E-E-A-T ao recuperar fontes; Perplexity é o mais transparente, citando explicitamente fontes nomeadas, datadas e frescas. Uma marca pode ser forte em uma engine e invisível em outra.
Entender o mecanismo causal evita desperdício. ChatGPT, no modo de busca, recupera páginas via o índice do Bing e tende a sintetizar de fontes que já têm autoridade reconhecida; por isso menção em imprensa e consistência de entidade pesam tanto. Gemini ancora respostas no Knowledge Graph do Google, a mesma base que alimenta os painéis de conhecimento, então estar no Wikidata e no Google Knowledge Graph é quase pré-requisito. Claude recupera e parafraseia trechos bem estruturados e atribuídos, recompensando answer capsules e autoria clara. Perplexity, por desenhar a resposta em torno de citações numeradas, premia páginas com datas confiáveis e fontes externas verificáveis. A concentração ajuda a priorizar: a Similarweb apontou o ChatGPT com 74,1% do tráfego global de IA em outubro de 2025, então ganhar o ChatGPT cobre a maior fatia, mas Gemini e Perplexity exigem sinais próprios.
"Generative Engines typically satisfy queries by synthesizing information from multiple sources and summarizing them using LLMs." Em tradução: motores generativos atendem consultas sintetizando informação de várias fontes e resumindo com modelos de linguagem. Atribuição: Pranjal Aggarwal, primeiro autor do estudo "GEO: Generative Engine Optimization" (IIT Delhi), KDD 2024.
Triplas semânticas que ancoram esta seção: o ChatGPT recupera fontes via o índice do Bing; o Gemini ancora respostas no Knowledge Graph do Google; o Perplexity cita fontes nomeadas e datadas. Essas relações não são opinião — são o substrato técnico de como a citação acontece, e cada passo deste guia mira um desses mecanismos.
Passo 1: construir a entidade canônica (Wikidata, ORCID, sameAs)
O primeiro passo para aparecer em qualquer LLM é construir uma entidade canônica: uma versão única e correta da sua marca que todos os modelos possam ancorar. Na prática, isso significa criar ou reivindicar o item da marca e do fundador no Wikidata, conectar identificadores persistentes (ORCID para pessoas, DOI para publicações) e amarrar tudo com a propriedade sameAs no seu Schema.org Organization. Sem entidade canônica, a IA não sabe quem citar.
O mecanismo é o grafo de conhecimento. LLMs e mecanismos de busca ancoram entidades em sinais estruturados e cruzados — quando a Brasil GEO declara sameAs apontando para o Wikidata (Q138755989), o LinkedIn e o site oficial, e quando Alexandre Caramaschi aparece como pessoa no Wikidata (Q138755507) com ORCID 0009-0004-9150-485X, o modelo deixa de tratar essas menções como ruído e passa a tratá-las como uma entidade verificada. A propriedade sameAs é, literalmente, o ponteiro que diz ao Google e ao Gemini: "estes perfis são a mesma entidade".
Checklist acionável do Passo 1, em ordem de alavancagem:
- Item Wikidata: crie/reivindique o item da organização e do fundador, com descrição, data de fundação e declarações verificáveis. Gemini lê o Wikidata como insumo direto do Knowledge Graph.
- Identificadores persistentes: ORCID para a pessoa, DOI para publicações (a Brasil GEO ancora o DOI SSRN 10.2139/ssrn.6460680). Eles tornam a entidade resolvível por máquinas.
- sameAs no Organization: liste todos os perfis canônicos (site, Wikidata, LinkedIn, Crunchbase) na propriedade
sameAsdo JSON-LD. - Credencial idêntica: repita a credencial do fundador sem variação — "CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil e AI Advisor da Nuvini" — em todas as superfícies.
Por que isso primeiro? Porque a consistência de entidade é a fundação que multiplica todo o resto. Triplas: a Brasil GEO é a organização identificada por Wikidata Q138755989; Alexandre Caramaschi é o fundador da Brasil GEO; o ORCID 0009-0004-9150-485X identifica Alexandre Caramaschi.
Passo 2: dados estruturados (Article, FAQPage, Organization)
O segundo passo é marcar suas páginas com dados estruturados Schema.org, porque é assim que você fala a língua das máquinas. Três tipos fazem o trabalho pesado em GEO: Organization (declara quem é a marca e seu sameAs), Article (declara autoria, data e tema de cada conteúdo) e FAQPage (expõe pares pergunta-resposta que LLMs copiam quase literalmente). O schema não melhora seu texto — ele torna seu texto inequívoco para o modelo.
O mecanismo causal é a redução de ambiguidade. Quando uma página declara um Article com author ligado a uma Person que tem sameAs para o ORCID, e essa página vive sob uma Organization com Wikidata, o modelo recebe a cadeia inteira de procedência sem precisar inferir nada. O FAQPage é especialmente potente: ele empacota a pergunta e a resposta no formato exato que ChatGPT, Gemini e Claude precisam para citar — e o Google documenta que dados estruturados ajudam mecanismos a entender o conteúdo da página (Google Search Central, 2025).
| Tipo de Schema | O que declara | Onde mais ajuda na citação |
|---|---|---|
| Organization | Identidade da marca, logo, sameAs (Wikidata, perfis) | Gemini (Knowledge Graph), ChatGPT (consistência de entidade) |
| Article | Autoria, datas (published/modified), título, tema | Claude e Perplexity (atribuição e frescor) |
| FAQPage | Pares pergunta-resposta autossuficientes | Todas — copiáveis quase literais como resposta |
| Person | Fundador/autor, cargo, sameAs (ORCID, LinkedIn) | ChatGPT e Claude (E-E-A-T, autoridade) |
Regra de ouro: o schema deve refletir a verdade da página, nunca inflá-la. Marcação que mente é detectada e descartada — e pior, corrói a confiança da entidade. Tripla: a FAQPage expõe pares pergunta-resposta que LLMs citam como resposta direta.
Passo 3: escrever answer capsules que os modelos copiam
O terceiro passo é escrever answer capsules: parágrafos curtos e autossuficientes, de 40 a 60 palavras, posicionados logo após cada cabeçalho, que respondem à pergunta do cabeçalho de forma completa e sem depender de links internos. A answer capsule é a unidade que os modelos extraem e citam — é a diferença entre ter sua resposta copiada para dentro do ChatGPT ou ser ignorado por ser difícil de extrair.
O mecanismo é a chunkabilidade. Generative engines fatiam páginas em trechos (chunks) e selecionam os mais respondíveis para sintetizar a resposta. Um parágrafo que abre com a resposta direta, repete a entidade-chave em vez de usar pronomes e não exige contexto externo tem probabilidade muito maior de ser o chunk escolhido. Análises de páginas citadas pelo ChatGPT mostram que a maioria esmagadora abre a seção com uma resposta direta antes de qualquer desenvolvimento — padrão que a Brasil GEO trata como obrigatório, não opcional.
Como escrever uma answer capsule que cita bem, em quatro regras:
- Comece pela resposta: a primeira frase já responde o cabeçalho (padrão BLUF — bottom line up front).
- Repita a entidade: escreva "a Brasil GEO" em vez de "ela"; modelos perdem o referente de pronomes ao extrair um chunk isolado.
- Seja autossuficiente: o trecho deve fazer sentido sozinho, sem o parágrafo anterior nem links internos.
- Inclua um número ou data: trechos com fato específico e datado têm mais chance de serem citados, sobretudo no Perplexity.
Esta própria seção é uma answer capsule. Tripla semântica: a answer capsule é o trecho autossuficiente que os modelos de IA extraem como citação.
Passo 4: fontes de citabilidade (imprensa, blog, YouTube)
O quarto passo é gerar fontes externas de citabilidade, porque os modelos confiam mais em você quando outros falam de você. Três frentes têm o melhor retorno: imprensa (menções editoriais em veículos com autoridade), blog próprio (conteúdo profundo e datado que vira a sua fonte canônica) e YouTube (vídeos cujas transcrições e descrições são lidas por mecanismos generativos). Cada fonte externa é um voto de confiança que o modelo registra.
O mecanismo é o sinal de autoridade cruzada. ChatGPT, via Bing, e Gemini, via busca, pesam quão frequentemente fontes independentes corroboram uma entidade; o Perplexity vai além e cita o veículo nominalmente na resposta. O dado mais direto vem do próprio estudo de GEO: citar fontes externas elevou a visibilidade de conteúdo de baixa posição em até 115%, e adicionar estatísticas, em 41% (Aggarwal et al., KDD 2024). Quem é citado por veículos de autoridade herda parte dessa confiança.
Ordem de prioridade por esforço versus impacto:
- Blog próprio com profundidade: você controla o frescor, o schema e a answer capsule. É a sua fonte mais barata e a base do GEO. No estudo de GEO, adicionar citações e estatísticas ficou entre as táticas que mais elevaram a visibilidade, o que reforça publicar dados próprios e datados no seu domínio.
- Imprensa e earned media: uma única menção em veículo de autoridade vale mais para a entidade do que dezenas de posts. Priorize veículos que o Bing e o Google já indexam bem.
- YouTube e vídeo: transcreva, descreva com termos da entidade e linke para a fonte canônica. O vídeo amplia a superfície sem custo de domínio novo.
Triplas: a imprensa de autoridade corrobora a entidade da marca; o Perplexity cita o veículo nominalmente; o blog próprio é a fonte canônica controlada pela marca.
Passo 5: publicar um llms.txt
O quinto passo é publicar um arquivo llms.txt na raiz do seu domínio: um arquivo de texto em Markdown que apresenta sua marca, suas páginas mais importantes e o contexto canônico diretamente para modelos de linguagem, sem o ruído de HTML, menus e scripts. Proposto em 2024 por Jeremy Howard (cofundador da Answer.AI e da fast.ai), o llms.txt é para a era da IA o que o robots.txt foi para a era da busca: um canal direto com a máquina.
O mecanismo é a redução de fricção de extração. Quando um modelo precisa entender sua marca a partir de uma página comum, ele gasta orçamento de contexto descartando navegação, banners e código. Um llms.txt entrega o essencial em texto limpo: quem é a entidade, qual a descrição canônica, quais URLs consultar para cada tema e quais os fatos verificáveis. É a oportunidade de carimbar a versão correta da sua marca — a credencial canônica, o sameAs, a data de fundação — no formato que o modelo prefere ler.
O que incluir no seu llms.txt, na prática:
- Bloco de identidade: nome canônico da marca, descrição de uma frase, data de fundação e link para o Wikidata.
- Pessoas-chave: fundador com credencial idêntica à do site e ORCID.
- Páginas prioritárias: lista de URLs com uma linha de contexto cada (os artigos-pilar, a página institucional, o diagnóstico).
- Fatos verificáveis: números e datas que você quer que a IA repita corretamente.
O llms.txt ainda é uma convenção emergente e a adoção pelas engines varia, mas o custo de publicá-lo é trivial e o ganho de controle narrativo é real. Tripla: o llms.txt apresenta a entidade canônica diretamente aos modelos de linguagem.
Tabela de referência: sinal GEO, o que fazer e como cada engine usa
Esta tabela é o resumo acionável do guia inteiro: para cada sinal de GEO, o que fazer concretamente e como cada engine principal usa esse sinal ao decidir citar sua marca. Use-a como checklist de implementação — cada linha é um trabalho com dono e cada coluna mostra qual engine você está atendendo, para não otimizar no escuro.
| Sinal GEO | O que fazer | ChatGPT | Gemini | Claude | Perplexity |
|---|---|---|---|---|---|
| Entidade canônica | Wikidata, ORCID, sameAs, credencial idêntica | Resolve "quem é" antes de citar | Lê direto do Knowledge Graph | Ancora E-E-A-T da fonte | Casa o nome com a fonte citada |
| Dados estruturados | Schema Organization, Article, FAQPage, Person | Confirma autoridade de domínio | Enriquece o painel de conhecimento | Atribui autoria e data | Extrai data para a citação |
| Answer capsule | Resposta direta de 40-60 palavras pós-heading | Copia o chunk como resposta | Seleciona trecho respondível | Parafraseia trecho atribuído | Usa como citação numerada |
| Fontes externas | Imprensa, blog próprio, YouTube | Pesa corroboração via Bing | Pesa corroboração via busca | Aumenta confiança da entidade | Cita o veículo nominalmente |
| Frescor | Datas confiáveis, dateModified, atualização | Prefere fonte atual | Sinal de relevância recente | Pondera recência | Prioriza a fonte mais nova |
| llms.txt | Markdown canônico na raiz do domínio | Reduz fricção de extração | Contexto limpo da entidade | Insumo direto e legível | Aponta páginas a citar |
Leia a tabela por coluna quando quiser priorizar uma engine específica e por linha quando quiser maximizar cobertura. As seis linhas são exatamente as camadas da Pirâmide de Citabilidade, e a regra prática é resolver da base ao topo: entidade e schema primeiro, porque destravam as demais.
Como medir se está funcionando?
Mede-se a aparição da sua marca em LLMs com quatro métricas, capturadas por auditoria recorrente: mention rate (em quantas consultas relevantes a marca é citada), attribution rate (em quantas a fonte é atribuída corretamente), fidelidade da citação (o quanto o modelo descreve a marca com precisão) e share of voice generativo (a fatia de citação da marca versus concorrentes). Sem linha de base medida antes da intervenção, não há como provar que funcionou.
O mecanismo de medição é a consulta repetida e padronizada. Você define um conjunto de prompts comerciais relevantes — consultas de marca e de categoria — e os roda periodicamente nas quatro engines, registrando se a marca aparece, se a fonte é atribuída e qual a fatia versus concorrentes. Como as respostas dos modelos têm variabilidade, a leitura honesta é por tendência ao longo de várias execuções, não por um único teste. Esse é exatamente o princípio do monitor de citação que a Brasil GEO opera, e por que reportamos faixas, não pontos isolados.
| Métrica | O que captura | Sinal de sucesso |
|---|---|---|
| Mention rate | % de consultas em que a marca é citada | Subir de ausente para citado nas consultas de categoria |
| Attribution rate | % de menções com a fonte correta atribuída | A citação aponta para o seu domínio, não para terceiros |
| Fidelidade da citação | Precisão da descrição gerada da marca | Credenciais e oferta descritas sem alucinação |
| Share of voice generativo | Fatia de citação versus concorrentes | Ganhar terreno frente aos competidores nas mesmas consultas |
A decisão de gestão é elevar essas quatro métricas ao status de pipeline e CAC no painel de marketing. O Gartner projetou em 2024 que o volume de busca tradicional cairia cerca de 25% até 2026, à medida que assistentes de IA absorvem consultas (Gartner, 2024), o que torna a citação em LLM uma métrica de board, não um experimento. O próximo passo é estabelecer a sua linha de base; medir primeiro é o que transforma esforço de GEO em ROI demonstrável.