Como Raspagem do Google AI Modo: Respostas, Citações e Fontes
Expert in Web Scraping Technologies
TL;DR:
- O Modo AI do Google é um motor de respostas conversacional de página inteira, não o bloco de visão geral AI inline. Ele expande um prompt em muitas sub-buscas paralelas e retorna uma resposta longa, sintetizada e multipartida com suas próprias fontes citadas — o mais próximo do analógico do Google ao ChatGPT ou Perplexity.
- O ator
scraper.aimodecaptura isso em um único POST síncrono. Uma única chamada para/api/v2/scraper/executeretorna a resposta; não há fluxo de ativação-poll-download para gerenciar. - Uma chamada retorna três formatos de resposta além de citações.
task_resultcarregaresult_text(prosa simples),result_md(markdown),result_html(a resposta renderizada), um arraycitationsdas fontes nas quais a resposta se baseou, e umraw_urlpara proveniência. citationsé a superfície de citação compartilhada. Cada entrada nomeia a fonte — título, URL, nome do site, trecho — para que você possa deduplicar e classificar os domínios dos quais o Modo AI do Google extrai informações para consultas com intenção de pesquisa.- A saída é determinada pelo
country; o idioma da resposta não é garantido. O mesmo prompt pode retornar uma resposta em um idioma diferente em uma determinada execução, então detecte o idioma a montante, em vez de assumir que o país o determina. - O envelope corresponde ao resto da linha do ator. Cada chamada retorna
{ status, task_id, task_result }, assim um cliente escrito aqui também lê ChatGPT, Gemini e Perplexity. - Gratuito para começar. Novas contas Scrapeless incluem créditos de teste gratuitos — inscreva-se em app.scrapeless.com.
Introdução: O Modo AI é o motor de respostas do Google, não um bloco SERP
O Modo AI do Google é uma página de resposta separada, em estilo de chat: você faz uma pergunta, o Google a decompõe em muitas sub-buscas paralelas e retorna uma resposta longa e sintetizada com prompts de acompanhamento e sua própria lista de fontes citadas. Não é a caixa de visão geral AI que está inline acima dos links azuis — essa é uma superfície diferente, capturada por um ator diferente. O Modo AI é onde o Google direciona perguntas de pesquisa e comparação, e se comporta mais como o ChatGPT ou Perplexity do que como uma página de resultados.
Para uma marca ou uma equipe de pesquisa, essa página agora é um destino principal, e é difícil de ler em grande escala. A resposta é renderizada em JavaScript, o layout muda, e as fontes por trás dela estão enterradas em markup que muda sem aviso. Capturá-la manualmente significa conduzir uma página de conversa que enfrenta automação.
O ator scraper.aimode retorna essa página como dados em uma solicitação: um prompt entra, e uma resposta estruturada volta em texto simples, markdown e HTML, com as fontes citadas como um array. As seções abaixo cobrem a solicitação de captura, o esquema de resposta campo a campo, um cliente Python que transforma um conjunto de prompts em uma tabela de compartilhamento de citações, e os atores acompanhantes para o resto das superfícies de AI do Google. Para o bloco de visão geral AI inline, raspagem da visão geral AI do Google cobre o ator separado scraper.overview.
O Que Você Pode Fazer Com os Dados do Modo AI do Google
- Rastreamento de compartilhamento de citações. Execute um conjunto fixo de prompts de pesquisa em um cronograma e conte quais domínios o Modo AI cita para cada um — a métrica GEO para as consultas que o Google direciona ao Modo AI.
- Monitoramento de marca e concorrentes. Detecte quando uma resposta começa ou para de mencionar seu produto para uma pergunta de compra ou comparação, e qual fonte a menção remete.
- Análise de lacunas de conteúdo. Veja quais páginas o Modo AI utiliza para um tópico e quais das suas próprias páginas nunca aparecem.
- Conjuntos de dados RAG e de avaliação. Alimente
result_textmaiscitationsem um sistema de recuperação ou um conjunto de avaliação como linhas de prompt–resposta–fonte limpas. - Diferenças de respostas ao longo do tempo. Armazene
result_htmlpor captura e compare a resposta renderizada para observar como a síntese do Google muda. - Captura em múltiplos locais. Determine
countrypor chamada para comparar como a resposta e suas fontes mudam entre mercados.
Por Que o Scraper do Modo AI do Google Scrapeless
O scraper do Modo AI do Google Scrapeless é o ator scraper.aimode, parte da linha Universal Scraping API. Para o Modo AI especificamente, ele traz:
- Um POST síncrono que retorna a resposta — sem fluxo de ativação-poll-download a ser gerenciado.
- Três formatos de saída em uma única resposta:
result_textpara incorporações,result_mdpara renderização,result_htmlpara arquivamento fiel. - Um array unificado de
citations— uma superfície de atribuição única, sem campos de anúncios ou compras misturados — pronto para operacionalizar o rastreamento de compartilhamento de citações. - Egress residencial fixada pelo
countryque você passa, com renderização e tratamento anti-bot rodando do lado do servidor. - O mesmo cabeçalho
x-api-tokene envelope{ status, task_id, task_result }que o restante da linha de ator.
Obtenha sua chave de API no plano gratuito em app.scrapeless.com.
Pré-requisitos
- Python 3.10 ou mais recente (o cliente abaixo usa apenas
requests) ou qualquer cliente HTTP para a chamada curl - Uma conta Scrapeless e chave de API — inscreva-se em app.scrapeless.com
- A chave exportada como
SCRAPELESS_API_KEY - Familiaridade básica com o terminal e JSON — sem navegador, proxy ou solucionador de CAPTCHA para comprar
Como o Google AI Mode Scraper funciona
Um único POST para /api/v2/scraper/execute com o ator scraper.aimode retorna a resposta. O ator renderiza a página do AI Mode do lado do servidor e a analisa no envelope de resposta.
Parâmetros de solicitação
Os parâmetros vão dentro do objeto input.
Campo input |
obrigatório | descrição |
|---|---|---|
prompt |
sim | a pergunta em formato livre a ser enviada ao AI Mode; a formulação de pesquisa e comparação desencadeia a resposta com mais confiabilidade |
country |
sim | código de região com duas letras (por exemplo, US); fixa a saída residencial para a execução |
Captura rápida com curl
bash
# Requer SCRAPELESS_API_KEY no ambiente.
curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: ${SCRAPELESS_API_KEY}" \
-d '{
"actor": "scraper.aimode",
"input": {
"prompt": "melhores tênis de corrida 2026",
"country": "US"
}
}'
# Encaminhe para: | jq '.task_result.citations' para as fontes citadas.
Envelope de resposta
A resposta reside sob task_result em três formatos, com as fontes como um array citations e um raw_url para proveniência. A estrutura abaixo é uma captura real para o prompt acima; os valores dos campos são um exemplo ilustrativo de uma execução ao vivo.
json
// O esquema é o que scraper.aimode retorna; os valores dos campos são um exemplo ilustrativo de uma execução ao vivo (ofertas/citações cortadas).
{
"status": "success",
"task_id": "…",
"task_result": {
"result_text": "### Melhores Tênis Diários (Mais Versáteis)\n#### ASICS Novablast 5 — Preço: R$129,95 (era R$150) | Vendedor: ASICS & mais | Avaliação: 4.x …",
"result_md": "### Melhores Tênis Diários (Mais Versáteis)\n\n…",
"result_html": "<div>… a resposta renderizada do AI Mode …</div>",
"citations": [
{
"website_name": "GearLab",
"title": "10 Melhores Tênis de Corrida de 2026 | Testados e Classificados",
"url": "https://…",
"snippet": "…",
"favicon": "https://…",
"thumbnail": "https://…"
}
],
"raw_url": "https://…"
}
}
Qual formato ler depende do trabalho:
result_text— prosa simples, o campo mais limpo para embeddings, detecção de linguagem ou análise rápida.result_md— estrutura markdown para renderização; note que pode conter imagens inline como URIs de dados base64, então remova essas antes de armazenar.result_html— a resposta fielmente renderizada, grande (centenas de KB); mantenha-a para arquivamento e comparações, não para análise.citations— o array de atribuições estruturadas; isso é o que você desduplicar e classifica para o compartilhamento de citações.
Algumas observações honestas do uso:
- A linguagem não é fixada pelo
country. O mesmo promptUSretornou uma resposta em inglês em uma execução e uma não inglesa em outra. Trate a linguagem da resposta como variável: detecte-a a partir deresult_texta montante e filtre, em vez de assumir que o país a define. - A saída varia de execução para execução. O número de citações e o comprimento da resposta mudam entre chamadas para o mesmo prompt — armazene
task_ide um timestamp de captura, porque a série ao longo do tempo é o sinal, não qualquer chamada única. - Nem toda consulta ativa o AI Mode. Prompts de conversa, pesquisa e comparação ativam a resposta; uma simples consulta de navegação pode não ativá-la. Fraseie com a intenção de pesquisa.
- Trate cada campo como anulável.
citationspode voltar vazia e um formato pode estar ausente em uma execução dada; proteja-se disso em vez de assumir presença.
Obtenha sua chave de API no plano gratuito: app.scrapeless.com
Integrando a API em Python
O padrão para escala é um conjunto fixo de prompts, uma chamada cada, citações achatadas em contagens de domínio. O cliente lê SCRAPELESS_API_KEY do ambiente, publica um prompt e constrói um total de domínio de citações para que uma tabela de participação de citações resulte diretamente.
python
"""Capture respostas do Google AI Mode para um conjunto de prompts (scraper.aimode).
export SCRAPELESS_API_KEY=your_api_token_here
python
import os
from collections import Counter
from urllib.parse import urlparse
import requests
ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
PROMPTS = [
"melhores tênis de corrida 2026",
"melhor crm para pequenas empresas",
"SUV elétrico mais confiável 2026",
]
def capture(prompt: str, country: str = "BR") -> dict:
resp = requests.post(
ENDPOINT,
headers={
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
},
json={"actor": "scraper.aimode", "input": {"prompt": prompt, "country": country}},
timeout=180,
)
resp.raise_for_status()
return resp.json().get("task_result", {}) or {}
def cited_domains(task_result: dict) -> list[str]:
domains = []
for citation in task_result.get("citations") or []:
url = citation.get("url") or ""
host = urlparse(url).netloc.removeprefix("www.")
if host:
domains.append(host)
return domains
if __name__ == "__main__":
tally = Counter()
for prompt in PROMPTS:
result = capture(prompt)
text = result.get("result_text") or ""
domains = cited_domains(result)
if not text and not domains:
# Resposta vazia persistente = nenhuma resposta do modo IA para esta consulta/geo. Registre e prossiga.
print(f"{prompt}: sem resposta do modo IA")
continue
tally.update(domains)
print(f"{prompt}: {len(text)} caracteres, {len(domains)} citações")
print("\nParticipação da citação (domínios no conjunto de prompts):")
for domain, count in tally.most_common(10):
print(f" {count:>2} {domain}")
Cada prompt gera o texto da resposta e os domínios citados pelo Modo IA; contabilizar os domínios ao longo do conjunto produz uma tabela de participação de citações. Para acompanhar uma conversa, envie a continuação como seu próprio prompt — cada chamada captura uma vez, então um thread de vários passos é uma sequência de capturas independentes vinculadas ao mesmo tópico. Escreva as linhas em um armazém em um cronograma e a participação de citações, a variação de respostas e novas fontes surgem como séries temporais.
Atores acompanhantes para captura de ponta a ponta do Google-AI
Uma conta e um envelope leem todas as superfícies de respostas do Google. Capture a mesma consulta, país e timestamp através de atores para uma visão completa:
scraper.overview— o bloco AI Overview inline; envie todo o trabalho de AI-Overview lá (Raspagem de visão geral do Google AI cobre isso).scraper.google.search— os resultados orgânicos para a mesma consulta, a serem combinados com a resposta da IA.scraper.chatgpt,scraper.gemini,scraper.perplexity,scraper.grok— o restante dos mecanismos de resposta na mesma forma{ status, task_id, task_result }. A comparação dos melhores raspadores LLM lê essas superfícies no mesmo envelope.
Como evitar problemas comuns
- Saída vazia ou variável.
result_textoucitationspodem retornar vazios, e as contagens variam de execução para execução. Armazenetask_ide um timestamp; a série é o sinal. Trate cada campo como anulável. - Sem resposta do Modo IA para uma consulta. Nem todo prompt ativa o Modo IA — formule como uma pergunta de pesquisa ou comparação; uma consulta de navegação pode não retornar nada.
- Idioma errado. O idioma da resposta pode diferir do
paísque você passa, então detecte o idioma a partir deresult_texte filtre em vez de assumir. - Escolhendo o formato. Use
result_textpara embeddings e verificações de idioma,result_mdpara renderização (remova imagens inline em base64), eresult_htmlapenas para arquivar e comparar.
Conclusão: um POST para as respostas conversacionais do Google
Capturar o modo AI do Google leva uma chamada: um POST para o ator scraper.aimode retorna a resposta conversacional em três formatos com suas fontes citadas como um array. Formule prompts para intenção de pesquisa, fixe o país, leia result_text mais citations, detecte o idioma a montante e trate cada campo como anulável. Execute um conjunto fixo de prompts em um cronograma com créditos da API de raspagem universal, e capture o Modo IA juntamente com o bloco de visão geral da IA e os resultados orgânicos para a imagem completa do Google-AI. A forma do pedido e os nomes dos campos são confirmados em relação ao ator scraper.aimode ao vivo na referência LLM Chat Scraper.
Pronto para construir seu pipeline de visibilidade de resposta de IA?
Junte-se à nossa comunidade para reivindicar um plano gratuito e se conectar com desenvolvedores que constroem pipelines de dados de respostas de IA: Discord · Telegram.
Inscreva-se em app.scrapeless.com para créditos de teste gratuitos e direcione o prompt definido acima para as perguntas de pesquisa e os mercados que o seu programa de visibilidade rastreia.
Perguntas Frequentes
P: É legal raspar o Modo de IA do Google?
Os dados retornados são a resposta de Modo de IA visível publicamente que o Google mostra a qualquer usuário. Como acontece com qualquer raspa, a legalidade depende da jurisdição e do uso — reveja os termos relevantes e consulte um advogado antes de construir em cima disso, e colete apenas dados e respostas públicos.
P: O Google oferece uma API oficial do Modo de IA?
Não. Não há um ponto final oficial para respostas do Modo de IA, que é por isso que é necessário um ator gerenciado que renderize e analise a página.
P: Preciso de um proxy ou de um solucionador de CAPTCHA?
Não. Renderização, saída residencial e manuseio anti-bot são realizados no lado do servidor. Você envia um POST com um cabeçalho x-api-token e lê o JSON de volta; o campo country seleciona o mercado de saída.
P: Como o Modo de IA é diferente do Visão Geral de IA?
O Modo de IA é um mecanismo de resposta conversacional de página inteira que expande um prompt em muitas sub-buscas; o Visão Geral de IA é o bloco inline acima dos resultados orgânicos. Eles são superfícies separadas com atores separados — scraper.aimode aqui, scraper.overview para o bloco.
P: Em que formato os dados são retornados?
O envelope é JSON: { status, task_id, task_result }. A resposta em si vem em três formas — result_text, result_md e result_html — além de um array citations e um raw_url.
P: Como faço para extrair as fontes citadas?
Leia task_result.citations; cada entrada traz o título da fonte, URL, nome do site e trecho. Extraia o host de cada URL e contabilize entre as capturas para participação das citações.
P: Qual formato devo usar para RAG?
Use result_text para embeddings, ou result_md quando você quiser estrutura — após remover quaisquer imagens inline em base64. Guarde result_html para arquivamento, não para recuperação.
P: Posso capturar respostas para um país específico?
Passe o código country para definir a saída residencial por mercado. Ele controla a região de saída; o idioma da resposta pode variar, então detecte e filtre o idioma a jusante.
P: Por que minha resposta está vazia ou diferente do navegador?
A consulta pode não acionar o Modo de IA, a região pode ser diferente ou a saída pode variar de execução para execução. Formule para intenção de pesquisa, fixe o country, armazene task_id mais um timestamp e trate os campos como anuláveis.
Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.



