Alimentando Agentes de IA: Desbloqueando Dados da Amazon, Google e LLM com Atores do Scraper API

Olivia Patel

Senior Cybersecurity Analyst

08-Jun-2026

Principais Conclusões:

Uma solicitação HTTP por ator. A API Scrapeless Scraper transforma um alvo — um produto da Amazon, uma pesquisa no Google, uma resposta de IA — em um único POST contra um ator scraper.* nomeado. Sem navegador para controlar, sem parser para manter.
Dois endpoints, por família de atores. Atores de Site e SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) usam POST /api/v1/scraper/request e retornam JSON analisado cuja forma exata é específica do ator. Os atores de resposta de IA (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) usam POST /api/v2/scraper/execute e retornam um envelope { status, task_id, task_result }.
Um cabeçalho de autenticação em todos os lugares. Cada chamada carrega x-api-token: <sua chave>. Uma chave de conta cobre todos os atores.
Saída estruturada, não HTML bruto. Atores de Site retornam JSON estruturado analisado — scraper.amazon inclui tanto um resultado analisado quanto o html renderizado, enquanto scraper.google.search retorna os campos SERP no nível mais alto — e os atores v2 retornam o corpo da resposta mais citações e links como campos JSON.
Assíncrono quando uma renderização é lenta. Alguns atores de site retornam um taskId; envie a solicitação, depois consulte GET /api/v1/scraper/result/{taskId} até que a carga útil esteja pronta.
Gratuito para começar. Novas contas Scrapeless incluem créditos gratuitos da API Scraper — cadastre-se em app.scrapeless.com.

Introdução: o modelo de ator

Um scraper tradicional é três trabalhos colados juntos: passar pela camada anti-bot, renderizar a página e analisar os campos que você deseja. A API Scraper Scrapeless colapsa todos os três em uma única chamada. Você nomeia um ator — um extrator pré-construído para um alvo específico — fornece uma entrada e recebe dados estruturados de volta. Rotação de proxy, renderização e análise ocorrem no lado do servidor.

O catálogo de atores abrange três grupos: e-commerce (scraper.amazon, scraper.shopeev2), pesquisa (scraper.google.search) e respostas de IA (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode). Este guia cobre autenticação, as duas formas de solicitação, um exemplo prático de cada família, o padrão assíncrono e os erros que você realmente verá.

O que você pode fazer com isso

Extrair dados estruturados de produtos — título, preço, classificação, disponibilidade, ASIN — de uma URL de mercado em uma única solicitação.
Ler uma página de resultados de pesquisa como JSON em vez de raspar a marcação SERP você mesmo.
Capturar uma resposta de IA com suas citações — o texto exato que um modelo retornou para um prompt, mais as fontes que citou, para rastreamento de GEO e visibilidade de marca.
Executá-lo de qualquer lugar — é HTTP simples, então curl, Python requests, Node fetch, ou qualquer linguagem com um cliente HTTP funciona sem mudanças.

Por que a API Scraper

Sem navegador, sem parser para manter. O ator renderiza e analisa no lado do servidor; você recebe campos, não um DOM para percorrer.
Uma chave, uma forma por família. Um único x-api-token autentica todos os atores, e cada família retorna um envelope consistente, portanto, um wrapper de cliente escrito uma vez é reutilizado em alvos diferentes.
Egress residencial e renderização estão embutidos. O ator lida com geo-roteamento e renderização JavaScript; você envia a entrada e lê o resultado.

Obtenha sua chave API no plano gratuito em app.scrapeless.com. A API Scraper está ao lado da API de Rastreamento Universal e Navegador de Rastreamento no catálogo de preços.

Pré-requisitos

Uma conta Scrapeless e chave API — cadastre-se em app.scrapeless.com.
curl para o teste rápido, ou Python 3.10+ / Node.js 18+ para os clientes abaixo.
Familiaridade básica com HTTP e JSON.

Armazene sua chave no ambiente para que nunca chegue ao código:

bash Copy

export SCRAPELESS_API_KEY=sua_chave_api_aqui

As duas formas de solicitação

A API Scraper tem dois endpoints. Qualquer ator usa depende do que ele retorna.

Família	Endpoint	Atores	Retornos
Site / SERP	`POST https://api.scrapeless.com/api/v1/scraper/request`	`scraper.amazon`, `scraper.google.search`, `scraper.shopeev2`	JSON analisado específico do ator (por exemplo, `scraper.amazon` → `{ html, metadata, result }`; `scraper.google.search` → `organic_results`, … nível superior)
Respostas de IA	`POST https://api.scrapeless.com/api/v2/scraper/execute`	`scraper.chatgpt`, `scraper.gemini`, `scraper.copilot`, `scraper.grok`, `scraper.perplexity`, `scraper.aimode`	`{ status, task_id, task_result }`

Ambos aceitam um corpo JSON de { "actor": "<nome>", "input": { … } } e o cabeçalho x-api-token. Os campos input diferem por ator (veja cada exemplo).

Exemplo 1 — Produto da Amazon (v1)

bash Copy

curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.amazon",
    "input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
  }'

A resposta contém o html renderizado, um bloco de metadata, e um objeto result analisado. O result é o que a maioria dos pipelines usa diretamente:

json Copy

// resultado (abreviado) — o esquema é normativo, valores de uma execução ao vivo
{
  "asin": "B09B8V1LZ3",
  "title": "Amazon Echo Dot (modelo mais recente) …",
  "final_price": "$49.99",
  "availability": "Em Estoque",
  "reviews_count": "193514",
  "seller_name": "Amazon.com"
}

Em Python:

python Copy

import os, requests

resp = requests.post(
    "https://api.scrapeless.com/api/v1/scraper/request",
    headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
    json={"actor": "scraper.amazon",
          "input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
    timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"])   # objeto analisado; resp.json()["html"] é a página completa

scraper.google.search usa o mesmo endpoint v1 com input { "q": "web scraping" }, mas seu SERP analisado retorna no nível superior — organic_results, search_information, pagination, related_searches — ao lado de metadata, sem um wrapper result.

Exemplo 2 — uma resposta de IA (v2)

Os atores de resposta de IA aceitam um prompt e um country e retornam a resposta do modelo com suas citações:

bash Copy

curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "Quais são as melhores ferramentas de web scraping?", "country": "US" }
  }'

Cada chamada bem-sucedida retorna o mesmo envelope:

json Copy

// o esquema é normativo, valores de uma execução ao vivo
{
  "status": "success",
  "task_id": "…",
  "task_result": {
    "model": "gpt-5-5",
    "result_text": "…a resposta do modelo…",
    "content_references": [ { "title": "…", "url": "https://…" } ],
    "links": [ "https://…" ]
  }
}

task_result contém a resposta (result_text), as fontes citadas (content_references) e os links extraídos — a análise de compartilhamento de citações é uma leitura de campo, não uma análise.

Alguns desses atores exigem um campo extra, que a API nomeia em sua mensagem de validação se você o omitir: scraper.copilot precisa de "mode": "smart", scraper.grok precisa de "mode": "MODEL_MODE_AUTO", e scraper.perplexity aceita "web_search": true para fundamentar a resposta. scraper.gemini e scraper.aimode aceitam apenas { prompt, country }.

Para a lista completa de campos por ator, veja a documentação do LLM Chat Scraper. Para uma construção completa e prática em um desses atores, o guia de scraper do Google AI Overview explica a captura em nível de citação.

Atores assíncronos: envie, depois faça polling

Alguns atores de site renderizam uma página pesada e respondem assíncronamente. O POST retorna um taskId em vez do payload:

json Copy

{ "taskId": "ef2f7cef-…", "message": "tarefa em andamento" }

Faça polling no endpoint de resultados até que a tarefa esteja concluída, então leia o mesmo formato de payload:

bash Copy

curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
  -H "x-api-token: $SCRAPELESS_API_KEY"
# enquanto ainda estiver em execução: { "state": "processing", "taskId": "…" }

scraper.shopeev2 segue esse padrão. Envie uma URL de produto shopee.sg ({ "url": "https://shopee.sg/<nome>-i.<shopid>.<itemid>" }), depois faça polling até que o JSON do produto chegue. As lojas são limitadas por região, então um domínio não suportado retorna área não suportada.

O que você recebe de volta

Família de Ator	Chaves de nível superior	Onde os dados estão
Site / SERP (v1)	específicas do ator (amazon: `html`, `metadata`, `result`; google: `organic_results`, … nível superior)	campos estruturados analisados; `scraper.amazon` também retorna o `html` renderizado completo
Respostas de IA (v2)	`status`, `task_id`, `task_result`	`task_result` contém o texto da resposta, citações e links
Trate campos ausentes como anuláveis — os módulos variam por produto, consulta, região e modelo. Leia primeiro o que o ator exibe (`scraper.amazon`'s `result`, os campos SERP de nível superior para `scraper.google.search`, ou `task_result` para os atores v2), e recorra ao `html` de `scraper.amazon` apenas quando precisar de um campo que o ator não analisa.

FAQ

Q: Como faço para autenticar?

Cada solicitação carrega o cabeçalho x-api-token: <sua chave>. Uma chave de conta funciona em todos os atores. Crie uma chave no plano gratuito em app.scrapeless.com.

Q: Qual endpoint um ator usa — v1 ou v2?

Atores de Site e SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) usam /api/v1/scraper/request. Os atores de resposta AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) usam /api/v2/scraper/execute.

Q: Como encontro os campos de entrada necessários de um ator?

Envie a solicitação; se um campo estiver ausente, a API responde com uma mensagem de validação informando-o (por exemplo, scraper.copilot informa que mode é obrigatório). A referência por ator está na documentação da API Scrapeless.

Q: É legal fazer scraping nesses sites?

Esses atores coletam dados visíveis publicamente. As regras variam por jurisdição e pelos termos de serviço de cada site, por isso revise os respectivos ToS e consulte um advogado para seu caso de uso antes de executar em larga escala. Nunca colete dados pessoais protegidos pelo GDPR ou CCPA.

Q: Preciso de um proxy?

Não. A saída residencial e o roteamento geográfico estão incorporados no ator — você envia a entrada, o ator lida com a camada de rede. Alvos com restrição regional aceitam apenas domínios de loja suportados.

Q: Posso executar isso sem um agente de IA ou SDK?

Sim. É HTTP simples — curl, requests, fetch ou qualquer cliente HTTP funciona diretamente. Nenhum SDK é necessário.

Conclusão

A API Scraper reduz um scrape a uma decisão e uma solicitação: escolha o ator, envie { actor, input } com seu x-api-token e leia os campos estruturados de volta. Atores de Site e SERP respondem em /api/v1/scraper/request com JSON analisado cuja forma é específica do ator; atores de resposta AI respondem em /api/v2/scraper/execute com um envelope uniforme { status, task_id, task_result }; renders lentos respondem de forma assíncrona via um taskId que você consulta. Escreva o wrapper do cliente uma vez e aponte-o para o ator que o pipeline precisa.

Pronto para Construir Seu Pipeline de Dados Impulsionado por IA?

Junte-se à nossa comunidade para reivindicar um plano gratuito e conectar-se com desenvolvedores construindo pipelines da API Scraper: Discord · Telegram.

Inscreva-se em app.scrapeless.com para créditos gratuitos da API Scraper e aponte um ator para os sites, consultas ou respostas de IA que seu pipeline precisa.

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Aprenda a integrar o Crawl4AI com o Scrapeless Cloud Browser para uma raspagem web eficiente e em grande escala. Desbloqueie proxies automáticos, impressões digitais personalizadas, reutilização de sessões e depuração em tempo real.

Sophia Martinez

20-Oct-2025

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Servidor MCP sem resíduos está oficialmente no ar! Construa seu Conector AI-Web definitivo.

Descubra como o Servidor Scrapeless MCP fornece aos LLMs capacidades de navegação e raspagem na web em tempo real. Aprenda a construir agentes de IA que pesquisam, extraem e interagem com conteúdo web dinâmico de forma integrada.

Michael Lee

17-Jul-2025

Guia de Ferramentas USPS Sem Scrap: Extração Eficiente e Conformidade de Dados de Remessa para Sistemas B2B

Aprenda a usar a ferramenta Scrapeless USPS para buscar dados de rastreamento estruturados e em tempo real de forma eficiente e em conformidade para plataformas ERP, OMS e SaaS.

Emily Chen

02-Jul-2025

Guia de Ferramentas USPS Sem Resíduos: Extração de Dados de Envio Eficiente e em Conformidade para Sistemas B2B

Catálogo