Alimentando Agentes de IA: Desbloqueando Dados da Amazon, Google e LLM com Atores do Scraper API
Senior Cybersecurity Analyst
Principais Conclusões:
- Uma solicitação HTTP por ator. A API Scrapeless Scraper transforma um alvo — um produto da Amazon, uma pesquisa no Google, uma resposta de IA — em um único
POSTcontra um atorscraper.*nomeado. Sem navegador para controlar, sem parser para manter. - Dois endpoints, por família de atores. Atores de Site e SERP (
scraper.amazon,scraper.google.search,scraper.shopeev2) usamPOST /api/v1/scraper/requeste retornam JSON analisado cuja forma exata é específica do ator. Os atores de resposta de IA (scraper.chatgpt,scraper.gemini,scraper.copilot,scraper.grok,scraper.perplexity,scraper.aimode) usamPOST /api/v2/scraper/executee retornam um envelope{ status, task_id, task_result }. - Um cabeçalho de autenticação em todos os lugares. Cada chamada carrega
x-api-token: <sua chave>. Uma chave de conta cobre todos os atores. - Saída estruturada, não HTML bruto. Atores de Site retornam JSON estruturado analisado —
scraper.amazoninclui tanto umresultadoanalisado quanto ohtmlrenderizado, enquantoscraper.google.searchretorna os campos SERP no nível mais alto — e os atores v2 retornam o corpo da resposta mais citações e links como campos JSON. - Assíncrono quando uma renderização é lenta. Alguns atores de site retornam um
taskId; envie a solicitação, depois consulteGET /api/v1/scraper/result/{taskId}até que a carga útil esteja pronta. - Gratuito para começar. Novas contas Scrapeless incluem créditos gratuitos da API Scraper — cadastre-se em app.scrapeless.com.
Introdução: o modelo de ator
Um scraper tradicional é três trabalhos colados juntos: passar pela camada anti-bot, renderizar a página e analisar os campos que você deseja. A API Scraper Scrapeless colapsa todos os três em uma única chamada. Você nomeia um ator — um extrator pré-construído para um alvo específico — fornece uma entrada e recebe dados estruturados de volta. Rotação de proxy, renderização e análise ocorrem no lado do servidor.
O catálogo de atores abrange três grupos: e-commerce (scraper.amazon, scraper.shopeev2), pesquisa (scraper.google.search) e respostas de IA (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode). Este guia cobre autenticação, as duas formas de solicitação, um exemplo prático de cada família, o padrão assíncrono e os erros que você realmente verá.
O que você pode fazer com isso
- Extrair dados estruturados de produtos — título, preço, classificação, disponibilidade, ASIN — de uma URL de mercado em uma única solicitação.
- Ler uma página de resultados de pesquisa como JSON em vez de raspar a marcação SERP você mesmo.
- Capturar uma resposta de IA com suas citações — o texto exato que um modelo retornou para um prompt, mais as fontes que citou, para rastreamento de GEO e visibilidade de marca.
- Executá-lo de qualquer lugar — é HTTP simples, então curl, Python
requests, Nodefetch, ou qualquer linguagem com um cliente HTTP funciona sem mudanças.
Por que a API Scraper
- Sem navegador, sem parser para manter. O ator renderiza e analisa no lado do servidor; você recebe campos, não um DOM para percorrer.
- Uma chave, uma forma por família. Um único
x-api-tokenautentica todos os atores, e cada família retorna um envelope consistente, portanto, um wrapper de cliente escrito uma vez é reutilizado em alvos diferentes. - Egress residencial e renderização estão embutidos. O ator lida com geo-roteamento e renderização JavaScript; você envia a entrada e lê o resultado.
Obtenha sua chave API no plano gratuito em app.scrapeless.com. A API Scraper está ao lado da API de Rastreamento Universal e Navegador de Rastreamento no catálogo de preços.
Pré-requisitos
- Uma conta Scrapeless e chave API — cadastre-se em app.scrapeless.com.
curlpara o teste rápido, ou Python 3.10+ / Node.js 18+ para os clientes abaixo.- Familiaridade básica com HTTP e JSON.
Armazene sua chave no ambiente para que nunca chegue ao código:
bash
export SCRAPELESS_API_KEY=sua_chave_api_aqui
As duas formas de solicitação
A API Scraper tem dois endpoints. Qualquer ator usa depende do que ele retorna.
| Família | Endpoint | Atores | Retornos |
|---|---|---|---|
| Site / SERP | POST https://api.scrapeless.com/api/v1/scraper/request |
scraper.amazon, scraper.google.search, scraper.shopeev2 |
JSON analisado específico do ator (por exemplo, scraper.amazon → { html, metadata, result }; scraper.google.search → organic_results, … nível superior) |
| Respostas de IA | POST https://api.scrapeless.com/api/v2/scraper/execute |
scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode |
{ status, task_id, task_result } |
Ambos aceitam um corpo JSON de { "actor": "<nome>", "input": { … } } e o cabeçalho x-api-token. Os campos input diferem por ator (veja cada exemplo).
Exemplo 1 — Produto da Amazon (v1)
bash
curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.amazon",
"input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
}'
A resposta contém o html renderizado, um bloco de metadata, e um objeto result analisado. O result é o que a maioria dos pipelines usa diretamente:
json
// resultado (abreviado) — o esquema é normativo, valores de uma execução ao vivo
{
"asin": "B09B8V1LZ3",
"title": "Amazon Echo Dot (modelo mais recente) …",
"final_price": "$49.99",
"availability": "Em Estoque",
"reviews_count": "193514",
"seller_name": "Amazon.com"
}
Em Python:
python
import os, requests
resp = requests.post(
"https://api.scrapeless.com/api/v1/scraper/request",
headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
json={"actor": "scraper.amazon",
"input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"]) # objeto analisado; resp.json()["html"] é a página completa
scraper.google.search usa o mesmo endpoint v1 com input { "q": "web scraping" }, mas seu SERP analisado retorna no nível superior — organic_results, search_information, pagination, related_searches — ao lado de metadata, sem um wrapper result.
Exemplo 2 — uma resposta de IA (v2)
Os atores de resposta de IA aceitam um prompt e um country e retornam a resposta do modelo com suas citações:
bash
curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.chatgpt",
"input": { "prompt": "Quais são as melhores ferramentas de web scraping?", "country": "US" }
}'
Cada chamada bem-sucedida retorna o mesmo envelope:
json
// o esquema é normativo, valores de uma execução ao vivo
{
"status": "success",
"task_id": "…",
"task_result": {
"model": "gpt-5-5",
"result_text": "…a resposta do modelo…",
"content_references": [ { "title": "…", "url": "https://…" } ],
"links": [ "https://…" ]
}
}
task_result contém a resposta (result_text), as fontes citadas (content_references) e os links extraídos — a análise de compartilhamento de citações é uma leitura de campo, não uma análise.
Alguns desses atores exigem um campo extra, que a API nomeia em sua mensagem de validação se você o omitir: scraper.copilot precisa de "mode": "smart", scraper.grok precisa de "mode": "MODEL_MODE_AUTO", e scraper.perplexity aceita "web_search": true para fundamentar a resposta. scraper.gemini e scraper.aimode aceitam apenas { prompt, country }.
Para a lista completa de campos por ator, veja a documentação do LLM Chat Scraper. Para uma construção completa e prática em um desses atores, o guia de scraper do Google AI Overview explica a captura em nível de citação.
Atores assíncronos: envie, depois faça polling
Alguns atores de site renderizam uma página pesada e respondem assíncronamente. O POST retorna um taskId em vez do payload:
json
{ "taskId": "ef2f7cef-…", "message": "tarefa em andamento" }
Faça polling no endpoint de resultados até que a tarefa esteja concluída, então leia o mesmo formato de payload:
bash
curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
-H "x-api-token: $SCRAPELESS_API_KEY"
# enquanto ainda estiver em execução: { "state": "processing", "taskId": "…" }
scraper.shopeev2 segue esse padrão. Envie uma URL de produto shopee.sg ({ "url": "https://shopee.sg/<nome>-i.<shopid>.<itemid>" }), depois faça polling até que o JSON do produto chegue. As lojas são limitadas por região, então um domínio não suportado retorna área não suportada.
O que você recebe de volta
| Família de Ator | Chaves de nível superior | Onde os dados estão |
|---|---|---|
| Site / SERP (v1) | específicas do ator (amazon: html, metadata, result; google: organic_results, … nível superior) |
campos estruturados analisados; scraper.amazon também retorna o html renderizado completo |
| Respostas de IA (v2) | status, task_id, task_result |
task_result contém o texto da resposta, citações e links |
Trate campos ausentes como anuláveis — os módulos variam por produto, consulta, região e modelo. Leia primeiro o que o ator exibe (scraper.amazon's result, os campos SERP de nível superior para scraper.google.search, ou task_result para os atores v2), e recorra ao html de scraper.amazon apenas quando precisar de um campo que o ator não analisa. |
FAQ
Q: Como faço para autenticar?
Cada solicitação carrega o cabeçalho x-api-token: <sua chave>. Uma chave de conta funciona em todos os atores. Crie uma chave no plano gratuito em app.scrapeless.com.
Q: Qual endpoint um ator usa — v1 ou v2?
Atores de Site e SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) usam /api/v1/scraper/request. Os atores de resposta AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) usam /api/v2/scraper/execute.
Q: Como encontro os campos de entrada necessários de um ator?
Envie a solicitação; se um campo estiver ausente, a API responde com uma mensagem de validação informando-o (por exemplo, scraper.copilot informa que mode é obrigatório). A referência por ator está na documentação da API Scrapeless.
Q: É legal fazer scraping nesses sites?
Esses atores coletam dados visíveis publicamente. As regras variam por jurisdição e pelos termos de serviço de cada site, por isso revise os respectivos ToS e consulte um advogado para seu caso de uso antes de executar em larga escala. Nunca colete dados pessoais protegidos pelo GDPR ou CCPA.
Q: Preciso de um proxy?
Não. A saída residencial e o roteamento geográfico estão incorporados no ator — você envia a entrada, o ator lida com a camada de rede. Alvos com restrição regional aceitam apenas domínios de loja suportados.
Q: Posso executar isso sem um agente de IA ou SDK?
Sim. É HTTP simples — curl, requests, fetch ou qualquer cliente HTTP funciona diretamente. Nenhum SDK é necessário.
Conclusão
A API Scraper reduz um scrape a uma decisão e uma solicitação: escolha o ator, envie { actor, input } com seu x-api-token e leia os campos estruturados de volta. Atores de Site e SERP respondem em /api/v1/scraper/request com JSON analisado cuja forma é específica do ator; atores de resposta AI respondem em /api/v2/scraper/execute com um envelope uniforme { status, task_id, task_result }; renders lentos respondem de forma assíncrona via um taskId que você consulta. Escreva o wrapper do cliente uma vez e aponte-o para o ator que o pipeline precisa.
Pronto para Construir Seu Pipeline de Dados Impulsionado por IA?
Junte-se à nossa comunidade para reivindicar um plano gratuito e conectar-se com desenvolvedores construindo pipelines da API Scraper: Discord · Telegram.
Inscreva-se em app.scrapeless.com para créditos gratuitos da API Scraper e aponte um ator para os sites, consultas ou respostas de IA que seu pipeline precisa.
Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.



