Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Guia técnico llms.txt em 2026: o que a evidência diz versus o que vendem

0,1% do tráfego de bot IA. 10% dos domínios. Quase nenhum dos sites mais citados. O que sobra de valor — e o que não sobra.

Por Alexandre Caramaschi|28 de maio de 2026|Brasil GEO

A reunião que acontece todo mês nas empresas brasileiras

Llms.txt tem valor real como catálogo canônico e aposta de opcionalidade — mas não melhora ranking em AI Overviews, não garante citação em ChatGPT ou Perplexity e não substitui conteúdo HTML de alta densidade. Pagar R$ 40 mil pela implementação isolada não tem suporte em evidências disponíveis até maio de 2026.

É quinta-feira. O diretor de marketing entra na call com a planilha de uma proposta de consultoria: R$ 40 mil para "implementar llms.txt e garantir visibilidade nos modelos de IA". O SEO sênior, com doze anos de carreira e cicatrizes de três Google Updates, sabe que algo não fecha — mas não consegue articular exatamente o quê. A reunião termina com o budget aprovado e a promessa de "resultados em 90 dias".

Esse cenário se repete semanalmente no Brasil desde o segundo semestre de 2025. Llms.txt virou o novo AMP: uma iniciativa com premissa sedutora, adoção entusiasmada e, agora, evidência sobrando para separar o que funciona do que é teatro.

Este guia não é contra llms.txt. É a favor de usá-lo com honestidade técnica. Entender a diferença pode salvar budget que deveria ir para o que de fato move citações em IA.

O que o Google disse literalmente em 15 de maio de 2026

O Google AI Optimization Guide de 15 de maio de 2026 afirma de forma explícita: "SEO para IA é SEO. Nossos sistemas não exigem que você crie arquivos especiais, llms.txt, chunking artificial ou marcações exclusivas para modelos de linguagem." AI Overviews e AI Mode operam sobre o mesmo índice e os mesmos sinais do Search clássico — não sobre arquivos auxiliares.

O Google AI Optimization Guide foi publicado em developers.google.com/search/docs/fundamentals/ai-optimization-guide e é o documento mais relevante já publicado sobre o tema — ainda assim é ignorado com espantosa frequência nas discussões do mercado.

O Google confirma que AI Overviews e AI Mode operam sobre o mesmo índice e os mesmos sinais de qualidade do Search clássico. Isso não é boa notícia para quem vendeu llms.txt como alavanca de visibilidade em Google AI — é a negação explícita da premissa central do produto.

John Mueller havia antecipado em novembro de 2025: "Nossos sistemas não se importam se o conteúdo é criado por IA ou humanos. O que importa é se é útil." O guia de maio consolida essa posição e amplia: a utilidade é avaliada pelos critérios que o Search já usa há anos — autoridade, relevância, experiência do autor, frescor.

Para o SEO sênior na call de quinta-feira, esse é o argumento definitivo: o arquivo que você está comprando não é sinal para o sistema que responde 1 bilhão de usuários mensais no AI Mode.

OtterlyAI 2026: o número que encerra debates

A OtterlyAI publicou em 2026 o levantamento mais granular disponível sobre comportamento de bots de IA em sites que possuem llms.txt. O resultado: 84 requisições ao arquivo em 62.100 hits totais de bots IA — 0,1% do tráfego.

Leia o número com atenção. Não é que llms.txt gera 0,1% de impacto nos rankings. É que, de todas as visitas de bots IA a um site típico com o arquivo publicado, apenas 1 em 1.000 é direcionada ao llms.txt. Os demais 99,9% rastreiam HTML, PDF, JSON-LD estruturado no código, Sitemap e demais fontes convencionais.

Isso faz sentido técnico. Modelos como GPT-4o, Gemini 2.5, Claude Opus e Perplexity Sonar têm pipelines de rastreamento próprios, treinados para extrair informação de HTML semântico da mesma forma que o Googlebot. Llms.txt é um padrão proposto — útil como diretório, não como canal prioritário de ingestão.

A implicação prática: se você alocar R$ 40 mil em llms.txt e zero em conteúdo HTML semântico de alta densidade informacional, você otimizou para 0,1% do canal e ignorou os 99,9% restantes.

DerivateX 2026: quem usa e quem é citado não são os mesmos

A DerivateX levantou em 2026 que 10,13% dos domínios ativos possuem llms.txt. Parece adoção significativa — até você verificar o segundo número: 1 em 50 dos domínios mais citados por modelos de IA possui o arquivo.

A dissociação é reveladora. Os sites que aparecem com maior frequência nas respostas de ChatGPT, Perplexity, Gemini e Claude não são os que implementaram llms.txt. São os que têm autoridade de domínio consolidada, conteúdo denso em dados verificáveis, citações em fontes primárias e consistência canônica entre o que publicam e o que fontes externas (Wikidata, Wikipedia, bases acadêmicas) confirmam sobre eles.

Isso aponta para a distinção crítica entre upstream knowledge (o que os modelos aprenderam durante o pré-treinamento, antes de qualquer rastreamento em tempo real) e runtime retrieval (o que bots como GPTBot e ClaudeBot coletam para grounding de respostas). Llms.txt opera no segundo canal — e mesmo ali, com a parcela ínfima de 0,1% de tráfego registrada pela OtterlyAI.

Para aparecer nos modelos com pré-treinamento em corpus histórico, o único caminho é construir autoridade que justifique menção em fontes de alta credibilidade: publicações acadêmicas, veículos de referência, Wikipedia, Wikidata. Isso leva meses e não tem atalho em um arquivo Markdown.

Upstream knowledge graph versus runtime retrieval: o mapa mental que resolve a confusão

Llms.txt opera no canal de runtime retrieval — o que bots de IA rastreiam em tempo real. Mas esse canal representa apenas 0,1% do tráfego de bot registrado pela OtterlyAI. O canal que de fato determina se sua marca é citada é o upstream knowledge graph, formado durante o pré-treinamento do modelo e que nenhum arquivo publicado hoje consegue alterar.

Upstream knowledge graph é o que o modelo absorveu durante o treinamento. Se o ChatGPT sabe que a Stone é uma fintech brasileira fundada em 2014, com IPO na Nasdaq e foco em PMEs, é porque essa informação apareceu milhares de vezes em textos de alta credibilidade durante o pré-treinamento. Nenhum arquivo publicado hoje altera o que o modelo aprendeu antes do seu cutoff. Llms.txt não retroage para o pré-treinamento.

Runtime retrieval é o que acontece quando um modelo com acesso à web busca informação em tempo real para embasar uma resposta. Bots como GPTBot, ClaudeBot e Perplexity rastreiam HTML público. A pesquisa da searchVIU em 2026 confirma: 5 dos principais motores (ChatGPT, Claude, Perplexity, Gemini, Google AI Mode) leem apenas HTML visível em runtime e ignoram JSON-LD oculto — e, por extensão, qualquer diretório em arquivo separado que não esteja integrado ao fluxo de rastreamento padrão.

Llms.txt tenta criar um terceiro mecanismo: o modelo lê o arquivo como índice e navega pelo site de forma mais dirigida. A teoria é sólida. Na prática, como o número OtterlyAI demonstra, os bots não priorizaram esse canal.

Entender essa distinção direciona o investimento: para upstream, construa presença em fontes de autoridade e validação em Wikidata (Q-IDs canônicos como LLM=Q115305900 e Schema.org=Q3475322). Para runtime, invista em HTML semântico denso, estrutura clara e frescor de conteúdo — não em arquivos auxiliares. É essa mesma base de entidade consistente que permite reduzir alucinações de IA sobre sua empresa.

Aprofunde a perspectiva sobre como modelos decidem o que citar em como a IA decide qual marca citar e o impacto da consistência entre canais em consistência canônica: a infraestrutura invisível.

O que llms.txt faz bem: catálogo, disciplina e opcionalidade

Feitas as ressalvas, há valor genuíno no arquivo — desde que você saiba o que está comprando.

Catálogo canônico. Llms.txt força a equipe a listar, em um único lugar, quais URLs representam a versão canônica de cada conteúdo. Isso tem valor diagnóstico: revela inconsistências, duplicações e gaps editoriais que a equipe nunca sistematizou. O processo de criar o arquivo vale mais que o arquivo em si.

Disciplina editorial. Ao escrever llms.txt, você decide quais páginas merecem atenção de um agente e quais não. Essa curadoria consciente é o primeiro passo de uma estratégia GEO real — separar o que tem densidade informacional do que é conteúdo de baixo valor mascarado de artigo.

Opcionalidade futura. O padrão llms.txt pode ganhar relevância se bots passarem a priorizar o arquivo como ponto de entrada. Publicar o arquivo agora custa pouco e preserva a opção de capturar benefício futuro. É uma aposta assimétrica: custo baixo, potencial de upside se o comportamento dos bots mudar.

Sinal defensivo para modelos abertos. Plataformas menores e modelos open-source que não possuem pipeline de rastreamento sofisticado podem usar llms.txt como guia. Se sua estratégia inclui visibilidade em Mistral, LLaMA-based products ou ferramentas corporativas com modelos próprios, o arquivo tem utilidade marginal positiva.

O que llms.txt não faz: ranking, citação garantida, substituição de robots.txt

A lista do que llms.txt não faz é mais longa e mais importante do que a do que faz.

Não melhora ranking em AI Overviews ou AI Mode. O Google foi explícito em 15 de maio de 2026. Não há caminho de sinal entre llms.txt e o sistema que decide quais fontes aparecem nas respostas do Google AI.

Não garante citação em ChatGPT, Gemini ou Perplexity. Esses sistemas usam pipelines de retrieval proprietários. Nenhum deles documentou tratamento especial para llms.txt como sinal de relevância ou autoridade.

Não substitui robots.txt. São arquivos com funções distintas. Robots.txt controla o rastreamento de todos os bots (com suporte à convenção). Llms.txt é uma proposta de diretório voluntário, sem enforcement técnico. Um bot pode ignorar completamente seu llms.txt e continuar rastreando o site — ou parar de rastrear mesmo com o arquivo publicado.

Não compensa conteúdo de baixa densidade. Se suas páginas têm 400 palavras genéricas sem dados verificáveis, autor identificado ou citações primárias, llms.txt não vai torná-las citáveis. O problema é editorial, não técnico.

Não tem ROI mensurável em 90 dias. Não existe metodologia validada que isole o efeito de llms.txt sobre citações em IA em janela tão curta. Quem promete isso está vendendo correlação como causalidade.

Para entender o que de fato move a agulha, veja a análise dos 5 erros que tornam sua marca invisível para IA.

Template anotado: o llms.txt que a Brasil GEO usa — e por quê cada linha existe

A seguir, um template comentado baseado na implementação da Brasil GEO. Cada elemento tem justificativa técnica — não é decoração.

# Brasil GEO — Diretório para modelos de linguagem
# Atualizado: 2026-05-28
# Mantenedor: alexandre@brasilgeo.ai
# Política completa: https://brasilgeo.ai/ai-policy.json

## Sobre a organização
> Brasil GEO Tech LTDA (BRGEO) — autoridade GEO e SEO para IA no Brasil.
> Fundadora: 2025-12-01 em Goiânia, GO.
> Registro Wikidata: Q138755989

## Conteúdo canônico (prioridade 1)
- [Glossário GEO 2026](https://brasilgeo.ai/glossario): 60 verbetes definidos, atualizados mensalmente
- [FAQ GEO para executivos](https://brasilgeo.ai/artigos/faq-geo-2026-tudo-que-executivos-precisam-saber): 40 perguntas com citações primárias

## Conteúdo editorial (prioridade 2)
- [Artigos técnicos](https://brasilgeo.ai/artigos): 80+ artigos, autor identificado, data ISO em cada um

## Excluir do rastreamento
- /rascunhos/
- /admin/
- /api/

## Nota para modelos não-Google
# Este arquivo não é sinal para Google Search, AI Overviews ou AI Mode.
# Destinado a modelos open-source e pipelines corporativos que usam llms.txt como diretório.

Os elementos que importam: identificação do mantenedor (accountability), data de atualização (frescor auditável), registro Wikidata (ancora em knowledge graph verificável), hierarquia clara de prioridade de conteúdo, exclusões explícitas e — crucialmente — o disclaimer final que evita que o arquivo seja citado como evidência de que "llms.txt melhora ranking no Google".

Métricas para medir lift real — sem ilusão de causalidade

Se você implementar llms.txt, meça. Mas meça o que é mensurável, não o que é conveniente para a narrativa de quem vendeu o projeto.

Tráfego de bots ao arquivo. Configure log analytics ou Cloudflare para contar requests ao path /llms.txt e /llms-full.txt. Isso confirma se os bots que você quer atingir estão de fato lendo o arquivo. Um número abaixo de 50 requests/mês em um site de médio porte é evidência de impacto marginal.

Share of voice em prompts controlados. Construa um painel de 25 prompts representativos da sua vertical e rode mensalmente nos 5 principais motores (ChatGPT, Claude, Perplexity, Gemini, Google AI Mode). Registre se sua marca aparece, em qual posição e com qual descrição. Essa é a métrica que importa — e ela não sobe por causa de llms.txt se o conteúdo HTML não melhorar junto. O passo a passo desse diagnóstico está em como auditar a presença da sua marca em LLMs.

Cobertura de rastreamento GSC. O Google Search Console não reporta rastreamento de llms.txt diretamente, mas reporta variações em páginas indexadas. Se você atualizar llms.txt sem atualizar o conteúdo das páginas listadas, não haverá variação — confirmando que o arquivo não é sinal independente.

ConvertMate 2026 documenta que conteúdo com menos de 30 dias gera 3,2 vezes mais citações do que conteúdo estático, com half-life de 13 semanas para Perplexity. Frescor do conteúdo HTML explica muito mais variação de citações do que presença ou ausência de llms.txt.

A decisão da Brasil GEO: implementar com três ressalvas inegociáveis

A Brasil GEO mantém llms.txt em todos os domínios do ecossistema. Mas a decisão veio com três ressalvas que comunicamos abertamente para clientes e parceiros.

Ressalva 1: o arquivo não substitui nenhuma hora de produção de conteúdo denso. Cada hora alocada em llms.txt que não existia antes deve vir de budget incremental, não de redistribuição do orçamento editorial.

Ressalva 2: o arquivo é auditável. Todo cliente que implementa llms.txt com a Brasil GEO recebe um dashboard de rastreamento de bots. Se, em 90 dias, o tráfego ao arquivo for menor que 1% do tráfego total de bots, a recomendação é reduzir esforço de manutenção e realocar para Schema.org e validação Wikidata.

Ressalva 3: o arquivo nunca é prometido como driver de citações. É prometido como catálogo canônico e aposta de opcionalidade. Resultados mensuráveis virão de outras iniciativas — conteúdo com autor verificável, FAQ estruturada (FAQPage gera 3,2 vezes mais chances de AIO, segundo Wellows 2026), e consistência entre o que seu site diz e o que Wikidata confirma sobre sua organização.

O SEO sênior que leu até aqui tem argumentos suficientes para a próxima call de quinta-feira. Implementar? Sim, com custo controlado. Pagar R$ 40 mil por isso? Apenas se a proposta incluir as outras iniciativas que de fato movem share of voice em IA.

Matriz 4 quadrantes: onde llms.txt faz sentido — e onde não faz

A decisão de investir em llms.txt se resolve com uma matriz simples de custo versus benefício esperado, segmentada por perfil de site.

Alto custo, baixo benefício (evitar): portais com centenas de URLs em múltiplos idiomas, e-commerces com catálogo dinâmico acima de 10 mil SKUs. Manter llms.txt atualizado para esses volumes exige automação cara e o benefício marginal permanece na faixa de 0,1% de tráfego documentada pela OtterlyAI.

Baixo custo, baixo benefício (implementar uma vez, não priorizar): sites institucionais com menos de 50 páginas, blogs pessoais, portfólios. Publicar llms.txt leva 2 horas. O arquivo fica estático. Custo de manutenção próximo de zero. Benefício marginal positivo se o ecossistema de bots evoluir.

Alto custo, alto benefício potencial (avaliar caso a caso): veículos de mídia com alto volume de publicação diária que precisam direcionar bots para as matérias mais relevantes, evitando que rastreiem conteúdo expirado ou de baixo valor. Aqui, o catálogo tem função curatorial real.

Baixo custo, alto benefício potencial (priorizar): plataformas B2B com documentação técnica densa, APIs públicas, glossários especializados. Nesses casos, llms.txt como índice de documentação canônica auxilia modelos corporativos e ferramentas internas baseadas em LLM a navegar o conteúdo com mais precisão.

Para uma visão completa do que compõe uma estratégia GEO de alto impacto, leia o framework GEO enterprise para visibilidade algorítmica.

Perguntas frequentes

Llms.txt afeta AI Overviews do Google?

Não. O Google AI Optimization Guide de 15 de maio de 2026 é explícito: o sistema não exige arquivos especiais como llms.txt. AI Overviews opera sobre os mesmos sinais do Search clássico — autoridade, relevância, experiência do autor e frescor do conteúdo HTML.

E o llms-full.txt? Funciona diferente do llms.txt?

Llms-full.txt é uma variação que inclui o conteúdo completo das páginas (não apenas URLs). A premissa é reduzir o número de requisições do bot ao site. Na prática, ambos sofrem do mesmo problema: os dados da OtterlyAI mostram 0,1% de tráfego de bots para qualquer variante do arquivo. A versão full aumenta o tamanho do arquivo sem evidência de melhora proporcional no rastreamento.

Qual o tamanho recomendado para llms.txt?

Sem evidência de que tamanho maior gera mais citações, o princípio de parsimônia sugere: inclua apenas o que tem densidade informacional real. Um arquivo entre 50 e 200 linhas é gerenciável. Acima de 500 URLs, a manutenção manual se torna inviável e a automação precisa ser justificada com base em dados de rastreamento.

Com que frequência devo atualizar llms.txt?

ConvertMate 2026 documenta que conteúdo com menos de 30 dias gera 3,2 vezes mais citações. Isso se aplica ao conteúdo HTML — não há evidência equivalente para llms.txt. Atualizar o arquivo mensalmente, sincronizado com o calendário editorial, é suficiente para manter o catálogo representativo sem overhead operacional.

Como validar se meu llms.txt está sendo lido?

Configure monitoramento de logs no servidor ou use Cloudflare Analytics para contar requests ao path /llms.txt. Identifique os User-Agents (GPTBot, ClaudeBot, PerplexityBot) nos logs. Se o tráfego ao arquivo for inferior a 1% do total de bots em 90 dias, reavalie o esforço de manutenção.

Preciso de llms.txt se já tenho Schema.org rico?

A pesquisa da searchVIU 2026 confirma que os principais motores leem HTML visível em runtime — o mesmo canal onde Schema.org opera quando renderizado no código. Se você já tem estrutura Schema.org densa e validada, llms.txt agrega pouco ao runtime retrieval. O maior valor, nesse caso, é o catálogo canônico para auditoria interna e para modelos open-source sem pipeline de rastreamento sofisticado.

Qual o ROI esperado em 90 dias?

Não existe metodologia validada que isole o efeito de llms.txt sobre citações em IA em 90 dias. O único ROI mensurável no curto prazo é o catálogo canônico — que tem valor diagnóstico interno. Promessas de 'X% mais menções em IA em 90 dias por causa do llms.txt' não têm suporte empírico publicado até maio de 2026.

O que devo priorizar antes de investir em llms.txt?

Em ordem de impacto documentado: (1) conteúdo HTML denso com autor identificado e data ISO atualizada; (2) FAQPage estruturada — Wellows 2026 documenta 3,2 vezes mais chances de AIO; (3) validação de entidade em Wikidata com Q-IDs corretos; (4) consistência canônica entre todas as fontes que falam sobre sua organização. Llms.txt entra depois desses quatro itens consolidados.

Leitura relacionada

Continue explorando

Seleção automática baseada nos tópicos, audiência e jornada desta página.

CursoSEO Programático FerramentaDiagnóstico GEO gratuito CursoGEO para Podcasts CursoReddit para GEO: Visibilidade em IA Generativa via Comunidade InsightIntegração SEO Técnico, JSON-LD e LLMs: O Guia Definitivo para 2026 FAQComo Otimizar Conteúdo para LLMs — FAQ GEO

Newsletter GEO

Receba conteúdo semanal sobre GEO e IA

Análises sobre Generative Engine Optimization, visibilidade algorítmica e estratégias para ser citado pelas IAs. Sem spam. Cancele quando quiser.

Compartilhar no LinkedIn Compartilhar no X

Ver todos os artigos →