Autoridade Canônica para LLMs: Como Definir a Fonte de Verdade que a IA Vai Citar
Quando múltiplas fontes dizem coisas diferentes sobre sua marca, a IA alucina. Autoridade canônica é a disciplina de definir uma fonte de verdade inequívoca que os modelos podem citar com confiança.
Key Takeaways
- Alucinações sobre marcas são frequentemente causadas por fontes conflitantes, não por falha do modelo. Quando 5 fontes dizem 5 coisas diferentes, o modelo não tem como escolher — e inventa.
- O “canonical stack” tem 5 componentes: bio canônica, press-kit estruturado, JSON-LD completo, entrada no Wikidata e llms.txt. Juntos, definem a fonte de verdade para a IA.
- A implementação de autoridade canônica deve cobrir 7 superfícies: site pessoal/corporativo, LinkedIn, Wikidata, press/mídia, redes sociais, CMS internos e agregadores de dados.
- O caso Alexandre Caramaschi → Brasil GEO demonstra uma hierarquia canônica pessoa-organização: o fundador é a entidade primária que ancora a entidade da organização.
- Empresas que implementam canonical authority completo reduzem alucinações em 60-80% e aumentam citações precisas em 45% nos primeiros 60 dias.
Por Que Fontes Conflitantes Causam Alucinações
Um LLM não “decide” o que é verdade — ele infere probabilidades a partir de padrões nos dados de treinamento e nas fontes consultadas via RAG. Quando múltiplas fontes concordam, a confiança é alta e a resposta é precisa. Quando as fontes divergem, o modelo enfrenta um dilema: qual versão é verdadeira?
Na prática, divergência entre fontes produz três tipos de falha:
- Alucinação por interpolação: O modelo cria uma “média” entre as fontes divergentes, gerando uma informação que não existe em nenhuma delas. Exemplo: fonte A diz que a empresa tem 100 funcionários; fonte B diz 500; o modelo diz 300.
- Omissão por incerteza: O modelo detecta inconsistência e decide não mencionar a entidade. Resultado: invisibilidade, não alucinação. Igualmente danoso.
- Hedging defensivo: O modelo menciona a marca, mas com qualificadores: “segundo algumas fontes”, “possivelmente”, “há relatos de que”. Transmite incerteza ao usuário.
A solução não é “corrigir o modelo” — é eliminar a divergência nas fontes. Quando existe uma fonte canônica inequívoca, consistente com todas as demais, o modelo converge para a resposta correta. Essa é a essência da autoridade canônica.
O Canonical Stack: 5 Componentes da Fonte de Verdade
1. Bio Canônica
Uma bio padrão, versionada em 3 tamanhos (50 palavras, 150 palavras, 300 palavras), que é a única versão utilizada em todas as superfícies. Contém: nome completo, cargo, empresa, área de expertise, realizações-chave. Qualquer variação dessa bio em qualquer superfície é uma inconsistência que precisa ser corrigida.
2. Press-Kit Estruturado
Uma página pública (domínio/press-kit) com dados institucionais completos: história, fundadores, portfólio, dados de contato, logos em alta resolução, dados factuais (fundação, sede, número de clientes). Funciona como referência definitiva para jornalistas, parceiros e — cada vez mais — para modelos de IA.
3. JSON-LD Completo (Schema.org)
Organization, Person, sameAs, foundedDate, numberOfEmployees, areaServed. O JSON-LD é a representação machine-readable da fonte de verdade. Deve estar no head do site e ser consistente com bio canônica e press-kit.
4. Entrada no Wikidata
O Q-ID no Wikidata é o identificador universal da entidade. Com propriedades-chave preenchidas e referências válidas, serve como âncora de desambiguação para LLMs. Deve ser bidirecional com o Schema.org (sameAs).
5. llms.txt
O arquivo llms.txt no domínio raiz é a mensagem direta para modelos de IA: “esta é a informação canônica sobre nós”. Deve conter os mesmos dados do press-kit em formato texto puro, otimizado para processamento por LLMs. É o componente mais recente do stack e o de adoção mais rápida.
Canonical Authority Implementation Matrix
A autoridade canônica deve ser implementada em 7 superfícies. A tabela abaixo detalha o que cada superfície deve conter:
| Superfície | Dados Canônicos Necessários | Prioridade | Frequência de Revisão |
|---|---|---|---|
| Site pessoal/corporativo | Bio canônica, Schema.org (Org + Person), llms.txt, press-kit, sameAs links | Crítica | Mensal |
| Bio canônica (versão 150 palavras), headline alinhada, URL do site, experiência atualizada | Crítica | Mensal | |
| Wikidata | Q-ID, 10 propriedades-chave, referências válidas, sameAs bidirecional | Crítica | Trimestral |
| Press/Mídia | Bio canônica distribuída para press, dados factuais padronizados em releases | Alta | A cada release |
| Redes sociais | Bio canônica (versão 50 palavras), URL do site, nome padronizado | Média | Trimestral |
| CMS/Sistemas internos | Dados factuais padronizados em propostas, contratos, assinaturas de email | Média | Semestral |
| Agregadores de dados | Google Business Profile, Crunchbase, diretórios setoriais: dados alinhados | Alta | Trimestral |
Case: A Hierarquia Canônica Alexandre Caramaschi → Brasil GEO
A implementação de autoridade canônica da Brasil GEO ilustra um padrão comum em empresas fundador-cêntricas: a hierarquia pessoa → organização. A estrutura funciona assim:
Entidade primária: Alexandre Caramaschi.O domínio canônico (alexandrecaramaschi.com) é a fonte de verdade sobre a pessoa. Schema.org Person completo, sameAs para Wikidata, LinkedIn, redes sociais. llms.txt no domínio com bio canônica e portfólio. A pessoa é a “âncora” do ecossistema.
Entidade derivada: Brasil GEO. A organização é vinculada ao fundador via Schema.org (worksFor, foundedBy) e Wikidata (P112). O domínio corporativo (brasilgeo.com) é a fonte canônica da organização, com Schema.org Organization apontando para a pessoa. A confiança do modelo na pessoa se transfere para a organização.
Essa hierarquia resolve um problema frequente: quando a IA é questionada sobre a Brasil GEO, ela pode ancorar a resposta na entidade bem documentada do fundador. Em empresas onde o fundador é desconhecido pela IA, a organização é uma entidade “solta” — sem âncora de confiança.
Resultado mensurável: Antes da implementação da hierarquia canônica, ChatGPT descrevia a Brasil GEO com 40% de precisão (dados genéricos, localização errada). Após a implementação, a precisão subiu para 92%, com menção consistente ao fundador e aos serviços corretos.
Manutenção da Autoridade Canônica: Um Processo, Não Um Projeto
Autoridade canônica não é uma implementação one-shot — é uma disciplina contínua. Três razões:
1. O mundo muda. Novos funcionários, novos serviços, mudança de sede, atualização de portfólio. Cada mudança que não é refletida em todas as 7 superfícies cria inconsistência. Um protocolo de atualização trimestral é o mínimo viável.
2. Terceiros publicam sobre você. Um jornalista escreve um artigo com dados desatualizados. Um diretório lista sua empresa com endereço antigo. Um parceiro menciona seu portfólio com informações parciais. Cada fonte externa inconsistente corrói a autoridade canônica. O monitoramento contínuo é necessário.
3. Modelos atualizam seus dados. LLMs passam por re-treinamento e atualização de RAG regularmente. Quando o modelo re-processa a web, ele encontra o estado atual das suas fontes. Se a bio no LinkedIn foi atualizada mas o llms.txt não, a nova inconsistência é absorvida pelo modelo.
Defina a Fonte de Verdade da Sua Marca para IA
Implementamos o canonical stack completo: bio, press-kit, JSON-LD, Wikidata e llms.txt — em todas as 7 superfícies, com monitoramento contínuo.
Solicitar Canonical Authority via WhatsAppSobre o Autor
Alexandre Caramaschi é CEO da Brasil GEO e um dos pioneiros em Generative Engine Optimization no Brasil. Desenvolveu o framework de Canonical Authority utilizado por empresas B2B para definir e manter a fonte de verdade que modelos de IA citam com confiança.