Alexandre Caramaschi

doi:10.2139/ssrn.6460680

RAG e query fan-out: como a IA monta a resposta que cita você

O que acontece entre a pergunta do usuário e a frase que cita (ou ignora) o seu conteúdo, e o que otimizar para entrar nessa montagem.

Por Alexandre Caramaschi|31 de maio de 2026|Brasil GEO

A resposta que você lê foi montada, não encontrada

A resposta que você lê no ChatGPT, no Gemini ou no Perplexity não foi encontrada: foi montada a partir de pedaços de várias páginas, recuperados em paralelo e costurados pelo modelo. Se o seu conteúdo entrou nesse processo, você foi citado. Se não entrou, você não existe para aquela pergunta — independentemente da qualidade do seu artigo. O que decide a citação não é a sua página inteira, é a passagem isolada dela. Para o caso concreto de virar resposta quando pesquisam sua marca, veja como aparecer no ChatGPT quando pesquisam sua marca.

Otimizar para a IA generativa é entender duas mecânicas concretas: RAG (Retrieval-Augmented Generation) e query fan-out. Este guia explica essas duas mecânicas e mostra o que ajustar na estrutura do conteúdo para sobreviver a elas. É a explicação que eu daria a um Tech Lead ou SEO técnico antes de tocar uma linha de schema.

A maioria dos sites otimiza a página. Precisam otimizar a passagem. São objetos diferentes, com regras diferentes.

O que é RAG, sem mistificação

RAG (Retrieval-Augmented Generation) é o mecanismo pelo qual um modelo de linguagem busca documentos relevantes antes de escrever a resposta. Em vez de responder só com o que memorizou no treino, o modelo injeta trechos recuperados da web no próprio contexto e gera a resposta ancorada nesses trechos. É por isso que o sistema consegue citar a fonte: a frase gerada está sustentada por um pedaço de texto que o modelo acabou de ler.

RAG é o denominador comum dos assistentes com busca em 2026. A análise da How Do I Use AI, de 24 de abril de 2026, descreve o Perplexity como um "sistema de recuperação de informação online com LLM" no qual todas as respostas vêm com citações, numeradas inline e ligadas a fontes (howdoiuseai.com). O ChatGPT em modo de busca usa o índice do Bing; o Google AI Mode usa o índice do Google. Backends diferentes, mesma arquitetura: recuperar, depois gerar.

O ponto que muda tudo para quem produz conteúdo: o modelo não recupera o seu site. Ele recupera chunks — pedaços de texto delimitados e indexados separadamente. A unidade de competição não é a URL, é o bloco. Se o seu argumento mais forte está espalhado por três parágrafos que só fazem sentido juntos, nenhum chunk sozinho vence o ranking de recuperação. A lógica de elegibilidade que decorre disso está em como a IA decide qual marca citar.

Query fan-out: uma pergunta vira muitas

Query fan-out é o mecanismo pelo qual o sistema decompõe a pergunta do usuário em várias subconsultas e as dispara em paralelo. Uma pergunta como "qual o melhor ERP para e-commerce de moda no Brasil" não vira uma busca — vira um leque: "ERP para e-commerce", "ERP integração marketplace moda", "ERP gestão fiscal NF-e", "comparativo ERP varejo Brasil", "reviews de usuários ERP moda". Cada subconsulta recupera seu próprio conjunto de passagens; depois o sistema junta tudo, reordena e sintetiza.

Esse comportamento multi-etapas é o que a documentação de mercado chama de "Deep Research" no ChatGPT e de "Pro Search" no Perplexity: quebrar a pergunta em subtarefas, buscar múltiplas fontes para cada uma e sintetizar num relatório (howdoiuseai.com). O Google AI Mode, lançado amplamente em março de 2026, transforma isso num espaço interativo onde novas consultas são disparadas internamente para refinar a resposta — descrito no contexto da economia zero-clique.

A implicação estratégica direta: você não precisa rankear para a pergunta principal, precisa rankear para as subconsultas. Uma página que cobre só o termo guarda-chuva perde para uma página que responde, com clareza, a cada uma das intenções derivadas. Cobertura de subtópicos deixou de ser tática de SEO de cauda longa e virou requisito de recuperação em IA generativa.

O fluxo completo, da pergunta à citação

Uma consulta percorre quatro etapas antes de gerar uma citação: fan-out (decomposição em subconsultas), retrieval (recuperação de chunks por subconsulta), re-ranking (seleção das melhores passagens) e geração (síntese pelo LLM). Há três pontos de decisão — e em cada um o seu conteúdo pode ser incluído ou descartado.

PERGUNTA DO USUÁRIO
   "melhor ERP para e-commerce de moda no Brasil?"
        |
        v
[1] QUERY FAN-OUT  (decomposição)
        |
        +--> subconsulta A: "ERP e-commerce moda"
        +--> subconsulta B: "ERP integração marketplace"
        +--> subconsulta C: "ERP gestão fiscal NF-e"
        +--> subconsulta D: "comparativo ERP varejo BR"
        |    (disparadas em PARALELO)
        v
[2] RETRIEVAL  (recuperação por chunk)
        |   índice: Bing / Google / próprio
        |   cada subconsulta puxa N passagens
        v
   POOL DE PASSAGENS CANDIDATAS
        |   <-- PONTO 1: seu chunk entra aqui ou não
        v
[3] RE-RANKING  (reordenação por relevância)
        |   relevância + autoridade + frescor + schema
        v
   TOP-K PASSAGENS SELECIONADAS
        |   <-- PONTO 2: seu chunk sobe ao topo ou cai
        v
[4] GERAÇÃO  (síntese pelo LLM)
        |   modelo escreve a resposta ancorada
        |   nas passagens selecionadas
        v
   RESPOSTA + CITAÇÕES
        |   <-- PONTO 3: você vira fonte citada ou não
        v
   USUÁRIO LÊ A RESPOSTA

Repare nos três pontos de decisão. No Ponto 1, o seu chunk precisa ser recuperado por pelo menos uma subconsulta, o que depende de relevância textual e de o conteúdo estar rastreável e indexado. No Ponto 2, ele precisa sobreviver ao re-ranking, que pondera relevância, autoridade da fonte, frescor e sinais estruturados. No Ponto 3, o modelo precisa de fato usar a sua passagem na síntese e atribuir a citação. Cada otimização que eu listo a seguir mira um desses três gargalos, nunca "o site como um todo". O primeiro passo prático é descobrir em qual ponto você está sendo descartado hoje — veja como auditar a presença da sua marca em LLMs.

Passagens autossuficientes e chunking semântico

Uma passagem autossuficiente é um bloco de texto que responde a uma pergunta específica sem depender do parágrafo anterior. O motor de RAG recupera chunks isolados — se o chunk começa com "como vimos acima", o "acima" não viaja junto e o bloco perde sentido. Cada pedaço precisa carregar o próprio contexto: sujeito nomeado, número relevante, resposta direta na primeira frase.

Chunking semântico, do lado de quem produz conteúdo, é criar fronteiras limpas para que o motor corte nos lugares certos: um subtópico por seção, headings que descrevem exatamente o que vem abaixo, e parágrafos que não misturam duas ideias. Quanto mais nítida a fronteira, mais preciso o chunk recuperado.

Regras que eu aplico e cobro dos times:

Uma intenção por bloco. Não responda a "o que é" e "quanto custa" no mesmo parágrafo. São dois chunks, duas subconsultas, duas chances de citação.
Resposta antes da explicação. A primeira frase da seção entrega a conclusão. O detalhamento vem depois, para quem quer aprofundar.
Contexto embutido. Cada passagem nomeia a entidade, o número e a data relevantes em vez de pressupor que o leitor (ou o extrator) já sabe.
Sem pronome órfão no início. "Isso", "ele", "esse processo" no começo do bloco quebram a autossuficiência.

Resposta direta no topo e cobertura de intenções

O re-ranking da IA generativa favorece passagens que respondem de forma direta e densa. O guia GEO de 2026 da Product Hackers, baseado em 145 consultas reais em moda e e-commerce, mostra que os assistentes priorizam conteúdos com tabelas, FAQs, respostas diretas e dados próprios, porque isso facilita a extração e a síntese (producthackers.com). O Perplexity exibe de 3 a 6 marcas por resposta; o Google AI Overviews, de 3 a 5; ChatGPT ou Claude, de 2 a 4. São poucas vagas — quem não responde direto não disputa.

Cobertura de intenções é o complemento da resposta direta. O conteúdo que cobre o leque inteiro de subintenções do fan-out é recuperado por mais subconsultas e aparece em mais pontos da síntese. Cobrir intenções não é encher a página de palavras-chave: é responder, com profundidade real, às perguntas adjacentes que um usuário faria em sequência — definição, comparação, preço, erro comum, próximo passo. Cada uma vira uma porta de entrada independente.

O ponto de partida prático é o mapa de subconsultas: liste as 8 a 12 subintenções prováveis do fan-out para a pergunta principal e garanta pelo menos uma passagem autossuficiente para cada. Esse trabalho é o que separa um artigo citado de um artigo invisível para a IA.

Dados estruturados: a camada que o re-ranking lê

Schema.org é a camada que ajuda o motor a entender o que é cada entidade antes de ranquear a passagem — não é SEO antigo. Fabrice Canel, da equipe do Bing na Microsoft, confirma: a marcação de esquema ajuda os LLMs da Microsoft a entender o conteúdo e serve como fonte de dados essencial para os recursos de busca baseados em IA (almcorp.com). Com o ChatGPT usando o índice do Bing como backend, isso deixa de ser teoria.

Para RAG e fan-out, os tipos mais relevantes são:

Organization e Person com sameAs ancoram a marca a uma entidade desambiguada, reduzindo o risco de o motor atribuir a passagem à empresa errada. A mecânica está em como estruturar Schema.org para IA generativa.
FAQPage e Article tornam explícito o par pergunta-resposta — o formato que o fan-out procura recuperar por subconsulta.
@id estável e referências about/mentions criam um grafo interno coerente, associado a menos citações erradas e melhor elegibilidade para AI Overviews.

Dado estruturado é sinal de desambiguação e elegibilidade, não gatilho garantido de citação. Ele melhora o Ponto 1 e o Ponto 2 do fluxo de RAG — ajuda o motor a confiar na fonte — mas não substitui ter a melhor passagem. Schema combinado com llms.txt reforça a coerência das entidades; essa abordagem está no guia prático de Schema JSON-LD e llms.txt.

Exemplo: a mesma informação, dois resultados

A diferença entre um chunk recuperável e um chunk ignorado não está no tamanho do parágrafo — está na autossuficiência e na resposta direta. O exemplo abaixo mostra as duas formas de escrever a mesma informação: a primeira, como a maioria publica; a segunda, otimizada para recuperação por RAG.

Versão que não é recuperada (contexto preso ao parágrafo anterior, resposta diluída):

Como mencionamos, isso depende muito do porte da
operacao. No caso dele, varios fatores entram em
jogo e o ideal e sempre analisar caso a caso antes
de decidir qualquer coisa sobre integração fiscal.

Esse bloco não responde a nenhuma subconsulta. Não nomeia a entidade, não traz número, não dá uma resposta. Extraído sozinho, é ruído.

Versão recuperável (autossuficiente, resposta no topo, dado embutido):

Um ERP de e-commerce de moda no Brasil precisa
emitir NF-e e NFC-e de forma nativa. Em 2026, com a
1a fase do split payment da reforma tributaria, a
integração fiscal automatica deixou de ser opcional:
sem ela, o lojista recolhe imposto manualmente em
cada venda. Plataformas com modulo fiscal nativo
eliminam esse trabalho.

O segundo bloco nomeia a entidade (ERP de e-commerce de moda), responde direto (precisa emitir NF-e e NFC-e), traz um marco datado (split payment em 2026) e conclui com um critério acionável. Ele é recuperável pela subconsulta de gestão fiscal, pela de integração e pela de comparação. Mesma informação, três portas de entrada em vez de zero.

Checklist de RAG-readiness para o time técnico

Este checklist de 8 pontos cobre os três gargalos do fluxo RAG — recuperação, re-ranking e geração — e serve de critério de auditoria para qualquer conteúdo antes de publicar.

Rastreável e indexável. Confirme que o motor consegue ler a página renderizada, sem conteúdo crítico escondido atrás de JavaScript que o crawler não executa. Sem isso, nem o Ponto 1 acontece.
Um subtópico por seção, heading descritivo. Cada heading deve permitir adivinhar a passagem só pelo título. Isso guia o corte semântico do chunk.
Resposta direta na primeira frase de cada seção. A conclusão vem antes da explicação.
Mapa de subintenções coberto. Liste as 8 a 12 subconsultas prováveis do fan-out e verifique se há passagem para cada.
Passagens autossuficientes. Nenhum bloco começa com pronome órfão ou referência ao "acima".
Schema de entidade e FAQ. Organization/Person com sameAs, e FAQPage onde houver par pergunta-resposta.
Dado próprio e datado. Pelo menos um número, experimento ou data que não exista igual em outro lugar. Originalidade aumenta a chance de o modelo preferir a sua passagem na síntese.
Frescor visível. Data de publicação e de atualização explícitas. O Perplexity, em particular, valoriza frescor e recomenda updates visíveis.

Esse trabalho não é glamouroso e não rende print bonito. Mas é o que coloca a sua passagem dentro do pool de candidatas, do topo do re-ranking e, por fim, da frase que o usuário lê. O resto é consequência.

O próximo passo prático

O próximo passo prático é direto: pegue o seu artigo mais importante, rode o checklist de RAG-readiness e reescreva três seções como passagens autossuficientes com resposta no topo. Depois teste as subconsultas no Perplexity e no AI Mode e verifique se a sua passagem aparece. Esse ciclo curto — reescrever, testar, medir — é mais valioso do que refazer o site inteiro de uma vez.

O Google sinalizou que o tema virou orientação de produto. Em 15 de maio de 2026 publicou um recurso oficial sobre como otimizar para a IA generativa na Busca (developers.google.com). No mesmo I/O 2026, declarou que a Busca entrou na "era dos agentes", com AI Mode e agentes de informação operando 24 horas por dia (blog.google). São agentes que montam respostas a partir de passagens recuperadas — a mesma mecânica deste guia, agora na superfície principal da Busca.

Para instrumentar a presença de forma contínua, o passo seguinte é medir citações, tratado em como a IA decide qual marca citar. A regra central permanece: otimize a passagem, não a página. É na passagem que a IA decide se cita você.

Perguntas frequentes

Qual a diferença entre RAG e query fan-out?

São duas etapas complementares. O query fan-out é a decomposição: o sistema quebra a sua pergunta em várias subconsultas e dispara todas em paralelo. O RAG (Retrieval-Augmented Generation) é o conjunto completo de recuperar as passagens relevantes para cada subconsulta e gerar a resposta ancorada nesses trechos. Fan-out é como o motor busca; RAG é como ele transforma o que recuperou em resposta citável.

Por que meu artigo bom não é citado pela IA?

Quase sempre porque o motor não recupera o artigo inteiro, e sim pedaços (chunks). Se o seu argumento mais forte está espalhado por vários parágrafos que só fazem sentido juntos, nenhum chunk sozinho vence o ranking de recuperação. A correção é escrever passagens autossuficientes: cada bloco responde a uma pergunta específica, com a conclusão na primeira frase e o contexto (entidade, número, data) embutido.

O que é uma passagem autossuficiente?

É um bloco de texto que responde a uma pergunta específica sem depender do parágrafo anterior. Ele nomeia a entidade em vez de usar pronome solto, traz o número ou a data relevante e entrega a resposta direta no início. O teste é simples: se você recortar só aquele bloco e mostrar para alguém fora de contexto, ele ainda faz sentido e responde a algo. Se começar com 'como vimos acima', não é autossuficiente.

Chunking semântico é algo que eu configuro ou que eu escrevo?

Do lado de quem produz conteúdo, é algo que você escreve. Você não controla o algoritmo de chunking do motor, mas controla onde ele encontra fronteiras semânticas limpas: um subtópico por seção, headings que descrevem exatamente o conteúdo abaixo e parágrafos que não misturam duas ideias. Quanto mais nítida a fronteira entre blocos, melhor o chunk que o motor extrai e indexa.

Dados estruturados (schema) garantem que a IA vai me citar?

Não garantem. Schema é sinal de desambiguação e de elegibilidade, não gatilho automático de citação. Ele ajuda o motor a entender que entidade é a sua e a confiar na fonte, melhorando suas chances na recuperação e no re-ranking. Fabrice Canel, do Bing, afirma que a marcação de esquema ajuda os LLMs da Microsoft a entender o conteúdo. Mas schema não substitui ter a melhor passagem: ele potencializa, não cria, a citação.

Como descubro quais subconsultas o fan-out vai gerar para o meu tema?

Pegue a pergunta principal e liste as perguntas que um usuário faria em sequência: definição, comparação, preço, integração, erro comum, próximo passo. Para 'melhor ERP para e-commerce de moda', o leque inclui integração com marketplace, gestão fiscal de NF-e, comparativo de plataformas e reviews. Você também pode observar os follow-ups que o próprio AI Mode ou Perplexity sugerem após a primeira resposta: eles revelam o leque real.

Esses mecanismos valem para ChatGPT, Gemini e Perplexity igualmente?

A arquitetura de fundo (recuperar e depois gerar) é comum aos três, mas os backends e o comportamento de citação variam. O ChatGPT usa principalmente o índice do Bing; o Gemini, o índice do Google; o Perplexity combina meta-busca com crawling próprio e cita fontes em 100% das respostas. O Perplexity exibe de 3 a 6 marcas por resposta, o Google AI Overviews de 3 a 5 e ChatGPT ou Claude de 2 a 4. As táticas de passagem autossuficiente e cobertura de intenções valem para todos; o formato de citação muda por motor.

Preciso reescrever todo o meu site para ficar RAG-ready?

Não de uma vez. Comece pelo conteúdo de maior valor estratégico. Pegue o artigo mais importante, rode o checklist de RAG-readiness, reescreva três seções como passagens autossuficientes com resposta no topo e teste as subconsultas no Perplexity e no AI Mode. Meça se a passagem passa a aparecer. A partir desse aprendizado, você prioriza o restante por impacto, em vez de tentar refazer tudo simultaneamente.

Leitura relacionada

Continue explorando

Seleção automática baseada nos tópicos, audiência e jornada desta página.

CursoSEO Programático FerramentaDiagnóstico GEO gratuito CursoGEO para Podcasts CursoReddit para GEO: Visibilidade em IA Generativa via Comunidade FAQPerguntas frequentes sobre GEO e SEO para IAs em 2026 FAQSchema.org Sozinho Não Amplifica Citação em IA: Estudo Ahrefs 2026 em 10 Q&A

Newsletter GEO

Receba conteúdo semanal sobre GEO e IA

Análises sobre Generative Engine Optimization, visibilidade algorítmica e estratégias para ser citado pelas IAs. Sem spam. Cancele quando quiser.

Compartilhar no LinkedIn Compartilhar no X

Ver todos os artigos →

Sobre o autor

Alexandre Caramaschi

Alexandre Caramaschi é Chief Strategy Officer da Nuvini (Nasdaq: NVNI), Founder da Brasil GEO, cofundador da NAIA e cofundador da AI Brasil. Foi CMO da Semantix, empresa brasileira de dados e IA listada na Nasdaq. Pioneiro em Generative Engine Optimization no Brasil, publicou o paper Algorithmic Authority na SSRN (Elsevier, DOI 10.2139/ssrn.6460680).

Tem 24+ anos em tecnologia, marketing e vendas, com passagens por telecom, varejo e dados em escala. Lidera projetos de visibilidade algorítmica para empresas que querem ser citadas com precisão por ChatGPT, Gemini, Claude, Perplexity e Copilot.

Graduação em Ciência da Computação (2001)
Imersão MIT Innovation Hub em Inteligência Artificial e Inovação (2023)
CMO da Semantix durante IPO na Nasdaq (2024)
Chief Strategy Officer da Nuvini (Nasdaq: NVNI), desde julho de 2026
Cofundador da NAIA
Cofundador da AI Brasil, maior comunidade de IA do país com 7.500+ profissionais
Autor do paper Algorithmic Authority publicado na SSRN (Elsevier), DOI 10.2139/ssrn.6460680
ORCID iD 0009-0004-9150-485X

LinkedIn Wikidata ORCID SSRN Perfil completo

Revisado em 2026-07-03 pelo Conselho Editorial da Brasil GEO. Saiba como revisamos.