🎯 Um navegador em nuvem personalizável e anti-detecção alimentado por Chromium desenvolvido internamente, projetado para rastreadores web e agentes de IA. 👉Experimente agora
De volta ao blog

Alimentando Agentes de IA: Desbloqueando Dados da Amazon, Google e LLM com Atores do Scraper API

Olivia Patel
Olivia Patel

Senior Cybersecurity Analyst

08-Jun-2026

Principais Conclusões:

  • Uma solicitação HTTP por ator. A API Scrapeless Scraper transforma um alvo — um produto da Amazon, uma pesquisa no Google, uma resposta de IA — em um único POST contra um ator scraper.* nomeado. Sem navegador para controlar, sem parser para manter.
  • Dois endpoints, por família de atores. Atores de Site e SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) usam POST /api/v1/scraper/request e retornam JSON analisado cuja forma exata é específica do ator. Os atores de resposta de IA (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) usam POST /api/v2/scraper/execute e retornam um envelope { status, task_id, task_result }.
  • Um cabeçalho de autenticação em todos os lugares. Cada chamada carrega x-api-token: <sua chave>. Uma chave de conta cobre todos os atores.
  • Saída estruturada, não HTML bruto. Atores de Site retornam JSON estruturado analisado — scraper.amazon inclui tanto um resultado analisado quanto o html renderizado, enquanto scraper.google.search retorna os campos SERP no nível mais alto — e os atores v2 retornam o corpo da resposta mais citações e links como campos JSON.
  • Assíncrono quando uma renderização é lenta. Alguns atores de site retornam um taskId; envie a solicitação, depois consulte GET /api/v1/scraper/result/{taskId} até que a carga útil esteja pronta.
  • Gratuito para começar. Novas contas Scrapeless incluem créditos gratuitos da API Scraper — cadastre-se em app.scrapeless.com.

Introdução: o modelo de ator

Um scraper tradicional é três trabalhos colados juntos: passar pela camada anti-bot, renderizar a página e analisar os campos que você deseja. A API Scraper Scrapeless colapsa todos os três em uma única chamada. Você nomeia um ator — um extrator pré-construído para um alvo específico — fornece uma entrada e recebe dados estruturados de volta. Rotação de proxy, renderização e análise ocorrem no lado do servidor.

O catálogo de atores abrange três grupos: e-commerce (scraper.amazon, scraper.shopeev2), pesquisa (scraper.google.search) e respostas de IA (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode). Este guia cobre autenticação, as duas formas de solicitação, um exemplo prático de cada família, o padrão assíncrono e os erros que você realmente verá.


O que você pode fazer com isso

  • Extrair dados estruturados de produtos — título, preço, classificação, disponibilidade, ASIN — de uma URL de mercado em uma única solicitação.
  • Ler uma página de resultados de pesquisa como JSON em vez de raspar a marcação SERP você mesmo.
  • Capturar uma resposta de IA com suas citações — o texto exato que um modelo retornou para um prompt, mais as fontes que citou, para rastreamento de GEO e visibilidade de marca.
  • Executá-lo de qualquer lugar — é HTTP simples, então curl, Python requests, Node fetch, ou qualquer linguagem com um cliente HTTP funciona sem mudanças.

Por que a API Scraper

  • Sem navegador, sem parser para manter. O ator renderiza e analisa no lado do servidor; você recebe campos, não um DOM para percorrer.
  • Uma chave, uma forma por família. Um único x-api-token autentica todos os atores, e cada família retorna um envelope consistente, portanto, um wrapper de cliente escrito uma vez é reutilizado em alvos diferentes.
  • Egress residencial e renderização estão embutidos. O ator lida com geo-roteamento e renderização JavaScript; você envia a entrada e lê o resultado.

Obtenha sua chave API no plano gratuito em app.scrapeless.com. A API Scraper está ao lado da API de Rastreamento Universal e Navegador de Rastreamento no catálogo de preços.


Pré-requisitos

  • Uma conta Scrapeless e chave API — cadastre-se em app.scrapeless.com.
  • curl para o teste rápido, ou Python 3.10+ / Node.js 18+ para os clientes abaixo.
  • Familiaridade básica com HTTP e JSON.

Armazene sua chave no ambiente para que nunca chegue ao código:

bash Copy
export SCRAPELESS_API_KEY=sua_chave_api_aqui

As duas formas de solicitação

A API Scraper tem dois endpoints. Qualquer ator usa depende do que ele retorna.

Família Endpoint Atores Retornos
Site / SERP POST https://api.scrapeless.com/api/v1/scraper/request scraper.amazon, scraper.google.search, scraper.shopeev2 JSON analisado específico do ator (por exemplo, scraper.amazon{ html, metadata, result }; scraper.google.searchorganic_results, … nível superior)
Respostas de IA POST https://api.scrapeless.com/api/v2/scraper/execute scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode { status, task_id, task_result }

Ambos aceitam um corpo JSON de { "actor": "<nome>", "input": { … } } e o cabeçalho x-api-token. Os campos input diferem por ator (veja cada exemplo).


Exemplo 1 — Produto da Amazon (v1)

bash Copy
curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.amazon",
    "input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
  }'

A resposta contém o html renderizado, um bloco de metadata, e um objeto result analisado. O result é o que a maioria dos pipelines usa diretamente:

json Copy
// resultado (abreviado) — o esquema é normativo, valores de uma execução ao vivo
{
  "asin": "B09B8V1LZ3",
  "title": "Amazon Echo Dot (modelo mais recente) …",
  "final_price": "$49.99",
  "availability": "Em Estoque",
  "reviews_count": "193514",
  "seller_name": "Amazon.com"
}

Em Python:

python Copy
import os, requests

resp = requests.post(
    "https://api.scrapeless.com/api/v1/scraper/request",
    headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
    json={"actor": "scraper.amazon",
          "input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
    timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"])   # objeto analisado; resp.json()["html"] é a página completa

scraper.google.search usa o mesmo endpoint v1 com input { "q": "web scraping" }, mas seu SERP analisado retorna no nível superiororganic_results, search_information, pagination, related_searches — ao lado de metadata, sem um wrapper result.


Exemplo 2 — uma resposta de IA (v2)

Os atores de resposta de IA aceitam um prompt e um country e retornam a resposta do modelo com suas citações:

bash Copy
curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "Quais são as melhores ferramentas de web scraping?", "country": "US" }
  }'

Cada chamada bem-sucedida retorna o mesmo envelope:

json Copy
// o esquema é normativo, valores de uma execução ao vivo
{
  "status": "success",
  "task_id": "…",
  "task_result": {
    "model": "gpt-5-5",
    "result_text": "…a resposta do modelo…",
    "content_references": [ { "title": "…", "url": "https://…" } ],
    "links": [ "https://…" ]
  }
}

task_result contém a resposta (result_text), as fontes citadas (content_references) e os links extraídos — a análise de compartilhamento de citações é uma leitura de campo, não uma análise.

Alguns desses atores exigem um campo extra, que a API nomeia em sua mensagem de validação se você o omitir: scraper.copilot precisa de "mode": "smart", scraper.grok precisa de "mode": "MODEL_MODE_AUTO", e scraper.perplexity aceita "web_search": true para fundamentar a resposta. scraper.gemini e scraper.aimode aceitam apenas { prompt, country }.

Para a lista completa de campos por ator, veja a documentação do LLM Chat Scraper. Para uma construção completa e prática em um desses atores, o guia de scraper do Google AI Overview explica a captura em nível de citação.


Atores assíncronos: envie, depois faça polling

Alguns atores de site renderizam uma página pesada e respondem assíncronamente. O POST retorna um taskId em vez do payload:

json Copy
{ "taskId": "ef2f7cef-…", "message": "tarefa em andamento" }

Faça polling no endpoint de resultados até que a tarefa esteja concluída, então leia o mesmo formato de payload:

bash Copy
curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
  -H "x-api-token: $SCRAPELESS_API_KEY"
# enquanto ainda estiver em execução: { "state": "processing", "taskId": "…" }

scraper.shopeev2 segue esse padrão. Envie uma URL de produto shopee.sg ({ "url": "https://shopee.sg/<nome>-i.<shopid>.<itemid>" }), depois faça polling até que o JSON do produto chegue. As lojas são limitadas por região, então um domínio não suportado retorna área não suportada.


O que você recebe de volta

Família de Ator Chaves de nível superior Onde os dados estão
Site / SERP (v1) específicas do ator (amazon: html, metadata, result; google: organic_results, … nível superior) campos estruturados analisados; scraper.amazon também retorna o html renderizado completo
Respostas de IA (v2) status, task_id, task_result task_result contém o texto da resposta, citações e links
Trate campos ausentes como anuláveis — os módulos variam por produto, consulta, região e modelo. Leia primeiro o que o ator exibe (scraper.amazon's result, os campos SERP de nível superior para scraper.google.search, ou task_result para os atores v2), e recorra ao html de scraper.amazon apenas quando precisar de um campo que o ator não analisa.

FAQ

Q: Como faço para autenticar?

Cada solicitação carrega o cabeçalho x-api-token: <sua chave>. Uma chave de conta funciona em todos os atores. Crie uma chave no plano gratuito em app.scrapeless.com.

Q: Qual endpoint um ator usa — v1 ou v2?

Atores de Site e SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) usam /api/v1/scraper/request. Os atores de resposta AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) usam /api/v2/scraper/execute.

Q: Como encontro os campos de entrada necessários de um ator?

Envie a solicitação; se um campo estiver ausente, a API responde com uma mensagem de validação informando-o (por exemplo, scraper.copilot informa que mode é obrigatório). A referência por ator está na documentação da API Scrapeless.

Q: É legal fazer scraping nesses sites?

Esses atores coletam dados visíveis publicamente. As regras variam por jurisdição e pelos termos de serviço de cada site, por isso revise os respectivos ToS e consulte um advogado para seu caso de uso antes de executar em larga escala. Nunca colete dados pessoais protegidos pelo GDPR ou CCPA.

Q: Preciso de um proxy?

Não. A saída residencial e o roteamento geográfico estão incorporados no ator — você envia a entrada, o ator lida com a camada de rede. Alvos com restrição regional aceitam apenas domínios de loja suportados.

Q: Posso executar isso sem um agente de IA ou SDK?

Sim. É HTTP simples — curl, requests, fetch ou qualquer cliente HTTP funciona diretamente. Nenhum SDK é necessário.


Conclusão

A API Scraper reduz um scrape a uma decisão e uma solicitação: escolha o ator, envie { actor, input } com seu x-api-token e leia os campos estruturados de volta. Atores de Site e SERP respondem em /api/v1/scraper/request com JSON analisado cuja forma é específica do ator; atores de resposta AI respondem em /api/v2/scraper/execute com um envelope uniforme { status, task_id, task_result }; renders lentos respondem de forma assíncrona via um taskId que você consulta. Escreva o wrapper do cliente uma vez e aponte-o para o ator que o pipeline precisa.

Pronto para Construir Seu Pipeline de Dados Impulsionado por IA?

Junte-se à nossa comunidade para reivindicar um plano gratuito e conectar-se com desenvolvedores construindo pipelines da API Scraper: Discord · Telegram.

Inscreva-se em app.scrapeless.com para créditos gratuitos da API Scraper e aponte um ator para os sites, consultas ou respostas de IA que seu pipeline precisa.

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Catálogo