A busca parou de ser uma caixa de texto
No Google I/O 2026, um número me fez parar de rolar a tela. Segundo a cobertura do evento, mais de uma em cada seis buscas nos Estados Unidos já usa voz ou imagem, não texto digitado. Não é uma curiosidade de bastidor. É o sinal de que a interface pela qual sua marca é encontrada deixou de ser uma caixa retangular onde alguém digita três palavras.
Vou ser honesto sobre a procedência desse dado. Ele aparece de forma consistente na cobertura especializada do I/O 2026 (por exemplo, no Marketing4eCommerce), atribuído ao próprio Google, mas eu não localizei a métrica exata em um post primário oficial. Trato como direcional, não como número fechado. Ainda assim, a direção é inequívoca: o AI Mode da Busca nasceu multimodal. Você fotografa, fala, aponta a câmera, e a IA responde montando uma síntese a partir de fontes que ela escolhe citar.
A pergunta que importa para quem dirige conteúdo é simples e desconfortável: quando a consulta não é texto, sua marca ainda é uma das fontes citadas? Passei os últimos meses testando isso na Brasil GEO, e a resposta padrão da maioria das empresas é não. Elas otimizaram a página para ser lida. Esqueceram que agora ela precisa ser vista, ouvida e reconhecida.
O que o I/O 2026 confirmou de fato (e o que é ruído)
Separar o que o Google declarou oficialmente do que a imprensa amplificou é parte do meu trabalho. Faço isso antes de recomendar qualquer tática, porque construir estratégia em cima de número inflado é a forma mais cara de errar.
Oficial e verificável, conforme o post oficial do Google sobre a Busca no I/O 2026 e o blog do Google em português: a Busca entrou na "era dos agentes", o AI Mode passou a ter o Gemini 3.5 Flash como modelo padrão globalmente, e o Google posiciona isso como a maior atualização em mais de 25 anos. O AI Mode aceita entradas multimodais de forma nativa.
Cobertura secundária, plausível mas não confirmada em fonte primária: o AI Mode teria ultrapassado 1 bilhão de usuários ativos mensais, com consultas que dobram a cada trimestre e uma consulta média três vezes mais longa que a busca tradicional. E o número que abre este guia: mais de 1 em 6 buscas por voz ou imagem nos EUA. Repito por disciplina: esses quatro últimos vêm de veículos especializados que atribuem ao I/O, não de um post oficial que eu tenha conseguido validar.
Por que a distinção importa para você? Porque a tese não depende do número exato. Se a consulta média triplicou de tamanho e parte relevante dela já é falada ou fotografada, o conteúdo que vence é o que responde a perguntas longas, conversacionais e ancoradas em contexto visual. Mesmo que seja "apenas" 14% das buscas e não 17%, a mudança de comportamento é estrutural. Em dossiê sobre o Core Update de maio de 2026 eu detalho como a virada para experiência reorganizou o topo dos resultados, e a multimodalidade é a outra face dessa mesma moeda.
Como a IA realmente lê uma imagem e um áudio
Antes de qualquer checklist, é preciso entender o mecanismo. Quando o Google AI Mode recebe uma foto via Lens ou um comando de voz, ele não "vê" como você. Ele faz duas coisas em paralelo. Primeiro, modelos de visão e áudio convertem a entrada em uma representação semântica (o que está na cena, qual objeto, qual intenção falada). Segundo, esse significado vira uma ou várias subconsultas de texto, que disparam o mesmo motor de recuperação (RAG) que alimenta a busca textual.
Essa é a sacada que muda tudo: a imagem que o usuário fotografou vira texto antes de buscar suas páginas. Logo, o que decide se você é citado não é a imagem dele. É o quão bem o seu conteúdo, com seus textos alternativos, suas legendas, seus dados estruturados e suas transcrições, casa com a subconsulta gerada. A multimodalidade entra pela porta do usuário, mas sai pela porta do texto recuperável.
Há evidência de que estruturar bem esse contexto ajuda. O research que reuni mostra que conteúdo multimodal genuíno (texto mais imagens originais mais vídeo com dados estruturados coerentes) aparece com frequência desproporcional em respostas generativas, e que o YouTube virou uma das fontes mais citadas pelos assistentes. Eu trato isso como correlação observada pela comunidade, não como lei da física. Mas a lógica é sólida: a IA prefere fontes onde texto, imagem e vídeo contam a mesma história sem contradição. Explorei o lado do vídeo com profundidade em YouTube para GEO, e recomendo a leitura como complemento direto deste guia.
Imagens: alt text descritivo e schema ImageObject
A maior parte das marcas trata o atributo alt como obrigação de acessibilidade ou keyword stuffing. As duas leituras estão erradas para GEO. O alt text é a tradução textual da sua imagem que a IA vai indexar. Se ele for genérico, sua imagem some do pool de recuperação multimodal.
O que eu faço, na prática:
- Descreva a cena, não a keyword. Em vez de
alt="GEO Brasil consultoria", use algo comoalt="Gráfico de barras comparando taxa de citação em ChatGPT, Gemini e Perplexity para 12 marcas brasileiras". A IA recupera por significado, e significado mora na descrição concreta. - Nomeie a entidade e o número visível na imagem. Se o gráfico mostra "41%", o alt ou a legenda devem conter "41%". A IA não lê pixels de um eixo Y; ela lê o que você escreveu ao redor.
- Use legenda visível (
figcaption), não só o alt. O texto visível pesa mais na fase de recuperação do que metadados ocultos. Coloque a explicação da imagem como texto que o leitor humano também enxerga. - Marque cada imagem editorial com
ImageObjectem JSON-LD, comcontentUrl,caption,creatorelicense. Isso ajuda na desambiguação de autoria e dá ao Google um nó estruturado para conectar a imagem à sua entidade.
Um detalhe técnico que custa caro quando ignorado: dados estruturados precisam ser coerentes com o que está visível. O Google sinaliza divergência entre schema e conteúdo como spam de dados estruturados. Não descreva no ImageObject uma legenda que não aparece na página. A consistência entre a camada visível e a camada estruturada é o mesmo princípio que sustenta toda a sua presença de entidade, algo que destrincho em como estruturar Schema.org para IA generativa.
Busca visual: otimizar para Lens e Circle to Search
Quando alguém aponta a câmera (Google Lens) ou circula um objeto na tela (Circle to Search), a IA tenta identificar o que é aquilo e responder. Para produtos e serviços com componente visual, esse é o canal mais subexplorado de 2026.
A otimização aqui é menos sobre código e mais sobre fidelidade visual. O que recomendo:
- Use imagens reais, originais e de alta resolução do seu produto, serviço ou caso. Bancos de imagem genéricos não casam com a foto que o usuário tirou do mundo real.
- Mostre o produto em múltiplos ângulos e contextos de uso. A busca visual casa por similaridade; quanto mais variações reais você publica, maior a chance de bater com a foto do usuário.
- Conecte cada imagem a um bloco de texto que responde a pergunta provável. Quem fotografa um objeto geralmente quer saber "o que é isto", "quanto custa", "onde compro", "como uso". Tenha esse texto perto da imagem.
- Para negócio local, capriche no Google Business Profile e no schema
LocalBusiness. Boa parte da busca visual termina em "onde encontro isto perto de mim", e aí entra a camada de presença local que decide a recomendação.
Não vou vender milagre. Não existe um botão "otimizar para Lens". O que existe é um princípio: a IA visual recompensa quem publica evidência visual abundante, real e textualmente explicada. Isso é trabalho de produção de conteúdo, não de truque técnico.
Voz e áudio: a pergunta falada é longa e conversacional
Busca por voz tem uma assinatura linguística própria. Ninguém fala "consultoria GEO São Paulo". As pessoas falam "qual consultoria me ajuda a aparecer no ChatGPT quando alguém pergunta sobre o meu setor". Se a consulta média do AI Mode triplicou de tamanho, como indica a cobertura do I/O, parte desse alongamento vem exatamente da fala.
O que eu otimizo para a busca falada:
- Headings em forma de pergunta natural. A IA extrai melhor de cabeçalhos interrogativos que espelham como a pessoa fala. Use a pergunta real, não a versão comprimida em keyword.
- Cápsula de resposta logo abaixo da pergunta. Um parágrafo curto, autossuficiente, de 120 a 150 caracteres, que responde direto antes de desenvolver. É essa cápsula que vira a resposta falada de volta ao usuário.
- Schema
Speakablenos trechos que funcionam como resposta de voz, sinalizando ao motor quais frases são adequadas para leitura em voz alta. - Para áudio e podcast, publique a transcrição completa. A IA não escuta seu episódio; ela lê o transcript. Sem transcrição, seu áudio é invisível para citação. Use
VideoObjectouAudioObjectcomtranscriptquando aplicável.
A regra mental que carrego: todo conteúdo não-textual precisa de uma sombra textual de qualidade. A imagem precisa do alt e da legenda. O vídeo precisa da transcrição e do capítulo. O áudio precisa do transcript. A IA cita a sombra, não o original. Quem entende isso para de tratar transcrição como tarefa chata de acessibilidade e passa a tratá-la como ativo de recuperação.
Checklist prático de GEO multimodal
Reuni o que aplico em auditoria, em ordem de impacto. Comece pelo topo.
- Reescreva os alt text das 50 imagens mais importantes para descrição concreta da cena, com entidade e número visível incluídos.
- Adicione legenda visível (
figcaption) a toda imagem editorial relevante, repetindo o dado que a imagem mostra. - Implemente
ImageObjectem JSON-LD nas imagens autorais, coerente com a legenda visível. - Publique transcrição completa de todo vídeo e áudio próprio, com
VideoObjectouAudioObjectcontendo o campo transcript. - Transforme headings em perguntas naturais e coloque uma cápsula de resposta de 120 a 150 caracteres logo abaixo de cada uma.
- Adicione schema
Speakableàs cápsulas de resposta principais. - Garanta imagens reais e de alta resolução de produtos e serviços, em múltiplos ângulos, para a busca visual.
- Verifique a paridade schema-conteúdo: nada no JSON-LD que não esteja visível na página.
- Para negócio local, atualize o Google Business Profile e o schema
LocalBusiness, fechando o ciclo busca visual para recomendação local. - Meça a citação em busca multimodal: rode prompts de voz e imagem nos assistentes e registre se sua marca aparece, antes e depois das mudanças.
Esse checklist não é um ritual de uma semana. É um novo padrão de produção: toda peça nasce com sombra textual. Se você ainda está mapeando onde GEO, SEO e AEO se sobrepõem nessa nova superfície, o artigo GEO vs SEO vs AEO esclarece o que muda na prática e ajuda a evitar a falsa escolha entre as camadas.
O que eu recuso a fazer (e por quê)
Honestidade intelectual me obriga a dizer o que não funciona, mesmo quando vende bem.
Recuso encher alt text de keyword. alt="GEO consultoria GEO IA GEO marca" não ajuda a IA a entender a imagem e arrisca sinal de spam. A IA recupera por significado, não por densidade de termo.
Recuso prometer "otimização para Lens" como produto fechado. Não existe alavanca dedicada. Existe disciplina de evidência visual abundante e textualmente explicada. Quem promete o botão mágico está vendendo o ritual técnico que o próprio Google já desmontou, tema que tratei sem rodeios ao discutir por que o jogo mudou de tática para fundamento.
Recuso fabricar número. Não vou afirmar que a busca multimodal é exatamente 17,3% das buscas globais quando o que tenho é uma estimativa de cobertura secundária para os EUA. Construir estratégia em cima de dado inventado é dívida que vence na pior hora, na frente do board.
O que eu faço, em vez disso: aplico o princípio da sombra textual a tudo, meço a citação real em busca falada e visual, e itero. A multimodalidade não é uma nova mágica. É a mesma exigência de qualidade, agora cobrada em três sentidos ao mesmo tempo.
Próximo passo: audite uma página esta semana
Não tente refazer o site inteiro. Escolha a página que mais importa para o seu negócio e faça uma auditoria multimodal nela, hoje. Liste cada imagem e pergunte: o alt descreve a cena? A legenda repete o dado? Existe um ImageObject coerente? Há um vídeo sem transcrição? Um heading que poderia ser pergunta falada com cápsula de resposta logo abaixo?
Depois, faça o teste que mais ensina: pegue o celular, fotografe ou fale a pergunta que um cliente faria, e veja se a IA cita você. Se não citar, você acabou de encontrar exatamente onde investir. A busca deixou de ser uma caixa de texto. A boa notícia é que a régua continua sendo qualidade, agora em voz, imagem e texto ao mesmo tempo. Quem produz evidência real, e dá a ela uma sombra textual impecável, continua sendo a fonte que a máquina escolhe citar.
Para fechar o ciclo da decisão executiva, vale ler o guia oficial que o Google publicou em 15 de maio de 2026 sobre otimização para IA generativa na Busca. Ele confirma, com a assinatura do próprio Google, que otimizar para essas experiências é, no fundo, fazer bem o trabalho de conteúdo. A multimodalidade só elevou o teto desse trabalho.