Alexandre Caramaschi

doi:10.2139/ssrn.6460680

GEO multimodal: como ser citado quando a busca usa voz e imagem

Mais de uma em cada seis buscas nos EUA já é por voz ou imagem, e o AI Mode do Google é multimodal por padrão. Um guia prático para otimizar texto, imagens, vídeo e áudio para a busca que não digita.

Por Alexandre Caramaschi|31 de maio de 2026|Brasil GEO

A busca parou de ser uma caixa de texto

Segundo a cobertura do Google I/O 2026, mais de uma em cada seis buscas nos Estados Unidos já usa voz ou imagem, não texto digitado. O AI Mode nasceu multimodal: você fotografa, fala ou aponta a câmera, e a IA responde citando fontes que ela escolhe. A pergunta desconfortável é: quando a consulta não é texto, sua marca ainda é citada?

Vou ser honesto sobre a procedência desse dado. Ele aparece de forma consistente na cobertura especializada do I/O 2026 (por exemplo, no Marketing4eCommerce), atribuído ao próprio Google, mas não localizei a métrica exata em um post primário oficial. Trato como direcional, não como número fechado.

A direção, porém, é inequívoca. Passei os últimos meses testando isso na Brasil GEO: a resposta padrão da maioria das empresas é não. Elas otimizaram a página para ser lida. Esqueceram que agora ela precisa ser vista, ouvida e reconhecida.

O que o I/O 2026 confirmou de fato (e o que é ruído)

O Google I/O 2026 confirmou dois fatos com assinatura oficial: a Busca entrou na "era dos agentes" e o AI Mode passou a ter o Gemini 3.5 Flash como modelo padrão globalmente, aceitando entradas multimodais de forma nativa. O Google posiciona essa mudança como a maior atualização em mais de 25 anos. Os demais números — 1 bilhão de usuários, consultas triplicadas, 1 em 6 buscas por voz — vêm de cobertura secundária e devem ser tratados como indicadores direcionais.

Oficial e verificável, conforme o post oficial do Google sobre a Busca no I/O 2026 e o blog do Google em português: a Busca entrou na "era dos agentes", o AI Mode tem o Gemini 3.5 Flash como padrão global e aceita entradas multimodais nativamente.

Cobertura secundária, plausível mas não confirmada em fonte primária: o AI Mode teria ultrapassado 1 bilhão de usuários ativos mensais, com consultas que dobram a cada trimestre e uma consulta média três vezes mais longa que a busca tradicional — e o número de mais de 1 em 6 buscas por voz ou imagem nos EUA. Esses quatro últimos vêm de veículos especializados que os atribuem ao I/O, sem post oficial que eu tenha conseguido validar.

A tese, porém, não depende do número exato. Se a consulta média triplicou e parte relevante dela já é falada ou fotografada, o conteúdo que vence responde a perguntas longas, conversacionais e ancoradas em contexto visual. A mudança de comportamento é estrutural. Em dossiê sobre o Core Update de maio de 2026 detalho como a virada para experiência reorganizou o topo dos resultados — a multimodalidade é a outra face dessa mesma moeda.

Como a IA realmente lê uma imagem e um áudio

Quando o Google AI Mode recebe uma foto via Lens ou um comando de voz, ele converte a entrada em representação semântica e a transforma em subconsultas de texto, que disparam o mesmo motor de recuperação (RAG) da busca textual. Em outras palavras: a imagem que o usuário fotografou vira texto antes de buscar suas páginas. O que decide a citação são seus alt text, legendas, dados estruturados e transcrições — não a imagem em si.

O mecanismo opera em dois passos em paralelo. Primeiro, modelos de visão e áudio convertem a entrada em uma representação semântica (o que está na cena, qual objeto, qual intenção falada). Segundo, esse significado vira uma ou várias subconsultas de texto que disparam o motor RAG. A multimodalidade entra pela porta do usuário, mas sai pela porta do texto recuperável.

O research que reuni mostra que conteúdo multimodal genuíno — texto mais imagens originais mais vídeo com dados estruturados coerentes — aparece com frequência desproporcional em respostas generativas. O YouTube se tornou uma das fontes mais citadas pelos assistentes. Trato isso como correlação observada pela comunidade, não como lei da física, mas a lógica é sólida: a IA prefere fontes onde texto, imagem e vídeo contam a mesma história sem contradição. Explorei o lado do vídeo com profundidade em YouTube para GEO, leitura complementar direta a este guia.

Imagens: alt text descritivo e schema ImageObject

O alt text é a tradução textual da sua imagem que a IA indexa. Se for genérico ou cheio de keywords empilhadas, sua imagem some do pool de recuperação multimodal. A regra é simples: descreva a cena de forma concreta, nomeie a entidade e inclua qualquer número visível — a IA recupera por significado, não por densidade de termo.

O que aplico na prática:

Descreva a cena, não a keyword. Em vez de alt="GEO Brasil consultoria", use algo como alt="Gráfico de barras comparando taxa de citação em ChatGPT, Gemini e Perplexity para 12 marcas brasileiras". A IA recupera por significado, e significado mora na descrição concreta.
Nomeie a entidade e o número visível na imagem. Se o gráfico mostra "41%", o alt ou a legenda devem conter "41%". A IA não lê pixels de um eixo Y; ela lê o que você escreveu ao redor.
Use legenda visível (figcaption), não só o alt. O texto visível pesa mais na fase de recuperação do que metadados ocultos. Coloque a explicação da imagem como texto que o leitor humano também enxerga.
Marque cada imagem editorial com ImageObject em JSON-LD, com contentUrl, caption, creator e license. Isso ajuda na desambiguação de autoria e dá ao Google um nó estruturado para conectar a imagem à sua entidade.

Dados estruturados precisam ser coerentes com o que está visível na página. O Google sinaliza divergência entre schema e conteúdo como spam de dados estruturados. Não descreva no ImageObject uma legenda que não aparece na página. A consistência entre a camada visível e a camada estruturada é o mesmo princípio que sustenta toda a presença de entidade — tema que destrincho em como estruturar Schema.org para IA generativa.

Busca visual: otimizar para Lens e Circle to Search

Para otimizar para o Google Lens e o Circle to Search, publique evidência visual real, original e de alta resolução — em múltiplos ângulos e contextos de uso — sempre acompanhada de texto que responde às perguntas prováveis do usuário. Não existe botão "otimizar para Lens": o que funciona é disciplina de produção de conteúdo visual textualmente explicado.

Quando alguém aponta a câmera (Google Lens) ou circula um objeto na tela (Circle to Search), a IA tenta identificar o que é aquilo e responder. Para produtos e serviços com componente visual, esse é o canal mais subexplorado de 2026. A otimização é menos sobre código e mais sobre fidelidade visual. O que recomendo:

Use imagens reais, originais e de alta resolução do seu produto, serviço ou caso. Bancos de imagem genéricos não casam com a foto que o usuário tirou do mundo real.
Mostre o produto em múltiplos ângulos e contextos de uso. A busca visual casa por similaridade; quanto mais variações reais você publica, maior a chance de bater com a foto do usuário.
Conecte cada imagem a um bloco de texto que responde a pergunta provável. Quem fotografa um objeto geralmente quer saber "o que é isto", "quanto custa", "onde compro", "como uso". Tenha esse texto perto da imagem.
Para negócio local, capriche no Google Business Profile e no schema LocalBusiness. Boa parte da busca visual termina em "onde encontro isto perto de mim", e aí entra a camada de presença local que decide a recomendação.

Não vou vender milagre. Não existe um botão "otimizar para Lens". O que existe é um princípio: a IA visual recompensa quem publica evidência visual abundante, real e textualmente explicada. Isso é trabalho de produção de conteúdo, não de truque técnico.

Voz e áudio: a pergunta falada é longa e conversacional

A busca por voz tem assinatura linguística própria: é longa, conversacional e formulada como uma pergunta completa. Ninguém fala "consultoria GEO São Paulo" — as pessoas falam "qual consultoria me ajuda a aparecer no ChatGPT quando alguém pergunta sobre o meu setor". Se a consulta média do AI Mode triplicou de tamanho, parte desse alongamento vem da fala. Headings em forma de pergunta natural e cápsulas de resposta curtas são os dois ajustes de maior impacto.

O que otimizo para a busca falada:

Headings em forma de pergunta natural. A IA extrai melhor de cabeçalhos interrogativos que espelham como a pessoa fala. Use a pergunta real, não a versão comprimida em keyword.
Cápsula de resposta logo abaixo da pergunta. Um parágrafo curto, autossuficiente, de 120 a 150 caracteres, que responde direto antes de desenvolver. É essa cápsula que vira a resposta falada de volta ao usuário.
Schema Speakable nos trechos que funcionam como resposta de voz, sinalizando ao motor quais frases são adequadas para leitura em voz alta.
Para áudio e podcast, publique a transcrição completa. A IA não escuta seu episódio; ela lê o transcript. Sem transcrição, seu áudio é invisível para citação. Use VideoObject ou AudioObject com transcript quando aplicável.

A regra mental que carrego: todo conteúdo não-textual precisa de uma sombra textual de qualidade. A imagem precisa do alt e da legenda. O vídeo precisa da transcrição e do capítulo. O áudio precisa do transcript. A IA cita a sombra, não o original. Quem entende isso para de tratar transcrição como tarefa chata de acessibilidade e passa a tratá-la como ativo de recuperação.

Checklist prático de GEO multimodal

Reuni o que aplico em auditoria, em ordem de impacto. Comece pelo topo.

Reescreva os alt text das 50 imagens mais importantes para descrição concreta da cena, com entidade e número visível incluídos.
Adicione legenda visível (figcaption) a toda imagem editorial relevante, repetindo o dado que a imagem mostra.
Implemente ImageObject em JSON-LD nas imagens autorais, coerente com a legenda visível.
Publique transcrição completa de todo vídeo e áudio próprio, com VideoObject ou AudioObject contendo o campo transcript.
Transforme headings em perguntas naturais e coloque uma cápsula de resposta de 120 a 150 caracteres logo abaixo de cada uma.
Adicione schema Speakable às cápsulas de resposta principais.
Garanta imagens reais e de alta resolução de produtos e serviços, em múltiplos ângulos, para a busca visual.
Verifique a paridade schema-conteúdo: nada no JSON-LD que não esteja visível na página.
Para negócio local, atualize o Google Business Profile e o schema LocalBusiness, fechando o ciclo busca visual para recomendação local.
Meça a citação em busca multimodal: rode prompts de voz e imagem nos assistentes e registre se sua marca aparece, antes e depois das mudanças.

Esse checklist não é um ritual de uma semana. É um novo padrão de produção: toda peça nasce com sombra textual. Se você ainda está mapeando onde GEO, SEO e AEO se sobrepõem nessa nova superfície, o artigo GEO vs SEO vs AEO esclarece o que muda na prática e ajuda a evitar a falsa escolha entre as camadas.

O que eu recuso a fazer (e por quê)

Há três práticas que recuso mesmo quando vendem bem: encher alt text de keyword, prometer "otimização para Lens" como produto fechado e fabricar número de busca multimodal. As três têm a mesma raiz — substituir evidência real por ritual técnico.

Recuso encher alt text de keyword. alt="GEO consultoria GEO IA GEO marca" não ajuda a IA a entender a imagem e arrisca sinal de spam. A IA recupera por significado, não por densidade de termo.

Recuso prometer "otimização para Lens" como produto fechado. Não existe alavanca dedicada. Existe disciplina de evidência visual abundante e textualmente explicada. Quem promete o botão mágico está vendendo o ritual técnico que o próprio Google já desmontou — tema que tratei sem rodeios ao discutir por que o jogo mudou de tática para fundamento.

Recuso fabricar número. Não vou afirmar que a busca multimodal é exatamente 17,3% das buscas globais quando o que tenho é uma estimativa de cobertura secundária para os EUA. Construir estratégia em cima de dado inventado é dívida que vence na pior hora, na frente do board.

O que faço em vez disso: aplico o princípio da sombra textual a tudo, meço a citação real em busca falada e visual, e itero. A multimodalidade não é uma nova mágica. É a mesma exigência de qualidade, agora cobrada em três sentidos ao mesmo tempo.

Próximo passo: audite uma página esta semana

Não tente refazer o site inteiro. Escolha a página que mais importa para o seu negócio e faça uma auditoria multimodal nela, hoje. Liste cada imagem e pergunte: o alt descreve a cena? A legenda repete o dado? Existe um ImageObject coerente? Há um vídeo sem transcrição? Um heading que poderia ser pergunta falada com cápsula de resposta logo abaixo?

Depois, faça o teste que mais ensina: pegue o celular, fotografe ou fale a pergunta que um cliente faria, e veja se a IA cita você. Se não citar, você acabou de encontrar exatamente onde investir. A busca deixou de ser uma caixa de texto. A boa notícia é que a régua continua sendo qualidade, agora em voz, imagem e texto ao mesmo tempo. Quem produz evidência real, e dá a ela uma sombra textual impecável, continua sendo a fonte que a máquina escolhe citar.

Para fechar o ciclo da decisão executiva, vale ler o guia oficial que o Google publicou em 15 de maio de 2026 sobre otimização para IA generativa na Busca. Ele confirma, com a assinatura do próprio Google, que otimizar para essas experiências é, no fundo, fazer bem o trabalho de conteúdo. A multimodalidade só elevou o teto desse trabalho.

Perguntas frequentes

Quantas buscas já são feitas por voz ou imagem em 2026?

Segundo a cobertura do Google I/O 2026, mais de uma em cada seis buscas nos Estados Unidos usa voz ou imagem em vez de texto digitado. É importante a ressalva: esse número aparece de forma consistente em veículos especializados que o atribuem ao Google, mas não foi possível confirmá-lo em um post oficial primário. Trato como dado direcional, não como métrica fechada. A tendência, porém, é inequívoca: o AI Mode da Busca é multimodal por padrão.

Como a IA lê uma imagem para decidir quem citar?

A IA não interpreta a imagem como um humano. Modelos de visão convertem a foto em uma representação semântica, que vira uma ou mais subconsultas de texto. Essas subconsultas disparam o mesmo motor de recuperação que alimenta a busca textual. Na prática, a imagem do usuário vira texto antes de buscar suas páginas. Por isso o que decide a citação são seus alt text, legendas, transcrições e dados estruturados, não a imagem em si.

O que é um bom alt text para GEO?

Um bom alt text descreve a cena de forma concreta, nomeia a entidade e inclui qualquer número visível na imagem. Em vez de 'consultoria GEO', escreva algo como 'gráfico comparando taxa de citação em ChatGPT, Gemini e Perplexity para 12 marcas'. Evite empilhar palavras-chave: isso não ajuda a IA a entender a imagem e arrisca sinal de spam. A IA recupera por significado, então o significado precisa estar na descrição.

Preciso de schema ImageObject e Speakable?

Eles ajudam, mas não são mágica. ImageObject dá ao Google um nó estruturado para conectar a imagem à sua entidade e à autoria, com campos como contentUrl, caption, creator e license. Speakable sinaliza quais trechos funcionam como resposta de voz. A regra inviolável é a paridade: nada no schema pode contradizer o conteúdo visível, sob risco de ser sinalizado como dados estruturados spam. Schema é higiene semântica, não atalho de ranqueamento.

Como otimizo vídeo e podcast para ser citado pela IA?

Publique a transcrição completa. A IA não assiste ao seu vídeo nem escuta seu episódio: ela lê o transcript. Sem transcrição, o conteúdo de áudio e vídeo é praticamente invisível para citação. Use VideoObject ou AudioObject com o campo transcript, adicione capítulos e legendas, e mantenha um resumo textual com os dados-chave perto do player. O YouTube, segundo o research, é uma das fontes mais citadas pelos assistentes justamente por ter transcrição rica.

Existe uma forma de otimizar para o Google Lens e o Circle to Search?

Não há uma alavanca dedicada chamada 'otimizar para Lens'. O que funciona é publicar evidência visual real, original e de alta resolução, em múltiplos ângulos e contextos de uso, sempre acompanhada de texto que responde às perguntas prováveis (o que é, quanto custa, onde compro, como uso). Para negócios locais, o Google Business Profile e o schema LocalBusiness fecham o ciclo entre a busca visual e a recomendação local.

A busca por voz muda como devo escrever os títulos e cabeçalhos?

Sim. A consulta falada é longa e conversacional, e a cobertura do I/O 2026 indica que a consulta média do AI Mode é cerca de três vezes mais longa que a busca tradicional. Por isso, use cabeçalhos em forma de pergunta natural, como a pessoa realmente fala, e coloque logo abaixo uma cápsula de resposta curta e autossuficiente de 120 a 150 caracteres. É essa cápsula que tende a virar a resposta lida em voz alta de volta ao usuário.

GEO multimodal substitui o meu SEO atual?

Não. O próprio guia oficial do Google de 15 de maio de 2026 reforça que otimizar para experiências generativas é, no fundo, fazer bem o trabalho de conteúdo: páginas indexáveis, conteúdo único e valioso, dados estruturados coerentes. A multimodalidade adiciona uma exigência sobre essa base, não a substitui. Cada imagem, vídeo e áudio passa a precisar de uma sombra textual de qualidade. É acúmulo de camada, não troca.

Leitura relacionada

Continue explorando

Seleção automática baseada nos tópicos, audiência e jornada desta página.

CursoSEO Programático FerramentaDiagnóstico GEO gratuito CursoSEO + GEO Fundamentos CursoGEO Analysis InsightGovernança de Dados na Era da IA: Como Construir Confiança Algorítmica CaseCase gestaofitness.net — Portal editorial HBR-grade sobre gestão fitness | Brasil GEO

Newsletter GEO

Receba conteúdo semanal sobre GEO e IA

Análises sobre Generative Engine Optimization, visibilidade algorítmica e estratégias para ser citado pelas IAs. Sem spam. Cancele quando quiser.

Compartilhar no LinkedIn Compartilhar no X

Ver todos os artigos →

Sobre o autor

Alexandre Caramaschi

Alexandre Caramaschi é Chief Strategy Officer da Nuvini (Nasdaq: NVNI), Founder da Brasil GEO, cofundador da NAIA e cofundador da AI Brasil. Foi CMO da Semantix, empresa brasileira de dados e IA listada na Nasdaq. Pioneiro em Generative Engine Optimization no Brasil, publicou o paper Algorithmic Authority na SSRN (Elsevier, DOI 10.2139/ssrn.6460680).

Tem 24+ anos em tecnologia, marketing e vendas, com passagens por telecom, varejo e dados em escala. Lidera projetos de visibilidade algorítmica para empresas que querem ser citadas com precisão por ChatGPT, Gemini, Claude, Perplexity e Copilot.

Graduação em Ciência da Computação (2001)
Imersão MIT Innovation Hub em Inteligência Artificial e Inovação (2023)
CMO da Semantix durante IPO na Nasdaq (2024)
Chief Strategy Officer da Nuvini (Nasdaq: NVNI), desde julho de 2026
Cofundador da NAIA
Cofundador da AI Brasil, maior comunidade de IA do país com 7.500+ profissionais
Autor do paper Algorithmic Authority publicado na SSRN (Elsevier), DOI 10.2139/ssrn.6460680
ORCID iD 0009-0004-9150-485X

LinkedIn Wikidata ORCID SSRN Perfil completo

Revisado em 2026-05-31 pelo Conselho Editorial da Brasil GEO. Saiba como revisamos.