喂养 AI 代理:通过抓取 API 执行者解锁亚马逊、谷歌和大型语言模型数据
Senior Cybersecurity Analyst
主要要点:
- 每个演员一个HTTP请求。 Scrapeless Scraper API将目标——一个亚马逊产品,一个谷歌搜索,一个人工智能回答——转换为对命名
scraper.*演员的单个POST请求。无需驱动浏览器,无需维护解析器。 - 按演员家族分为两个端点。 网站和SERP演员(
scraper.amazon,scraper.google.search,scraper.shopeev2)使用POST /api/v1/scraper/request并返回特定于演员的解析JSON。人工智能回答演员(scraper.chatgpt,scraper.gemini,scraper.copilot,scraper.grok,scraper.perplexity,scraper.aimode)使用POST /api/v2/scraper/execute并返回一个{ status, task_id, task_result }信封。 - 配置文件头在各处一致。 每个调用都携带
x-api-token: <your key>。一个账户密钥覆盖所有演员。 - 结构化输出,而非原始HTML。 网站演员返回解析后的结构化JSON——
scraper.amazon包括解析后的result和呈现的html,而scraper.google.search在顶层返回SERP字段——v2演员返回答案正文加上引用和链接作为JSON字段。 - 渲染缓慢时异步处理。 某些网站演员返回一个
taskId;提交后,轮询GET /api/v1/scraper/result/{taskId},直到有效负载准备就绪。 - 免费开通。 新的Scrapeless账户附带免费的Scraper API积分——在app.scrapeless.com注册。
介绍:演员模型
传统的爬虫是三个工作连接在一起:绕过反机器人层,渲染页面,以及解析所需字段。Scrapeless Scraper API将这三者整合为一个调用。您指定一个演员——针对特定目标的预构建提取器——提供输入,并返回结构化数据。代理轮换、渲染和解析在服务器端运行。
演员目录分为三组:电子商务(scraper.amazon,scraper.shopeev2),搜索(scraper.google.search),以及AI回答(scraper.chatgpt,scraper.gemini,scraper.copilot,scraper.grok,scraper.perplexity,scraper.aimode)。本指南涵盖身份验证、两种请求格式、每个家族的工作示例、异步模式以及您实际会遇到的错误。
您可以用它做什么
- 从市场URL中提取结构化产品数据 — 标题、价格、评分、可用性、ASIN — 只需一次请求。
- 将搜索结果页面读作JSON,而不是自己抓取SERP标记。
- 捕捉带有引用的AI回答 — 模型为提示返回的精确文本,外加它引用的来源,用于地理位置和品牌可见性跟踪。
- 从任何地方运行 — 它是纯HTTP,因此curl、Python
requests、Nodefetch或任何具有HTTP客户端的语言均可正常工作。
为什么选择Scraper API
- 无需浏览器,无需维护解析器。 演员在服务器端进行渲染和解析;您接收到字段,而不是需要遍历的DOM。
- 一个密钥,一个家族格式。 单个
x-api-token验证每个演员,每个家族返回一致的信封,因此一次编写的客户端包装可以在多个目标中重用。 - 内置住宅出网和渲染功能。 演员处理地理路由和JavaScript渲染;您发送输入并读取结果。
在app.scrapeless.com的免费计划中获取您的API密钥。Scraper API与Universal Scraping API和Scraping Browser并列于定价目录中。
前提条件
- 拥有一个Scrapeless账户和API密钥——在app.scrapeless.com注册。
curl进行快速测试,或使用Python 3.10+/Node.js 18+的客户端。- 对HTTP和JSON有基本的了解。
将您的密钥存储在环境中,以免进入代码:
bash
export SCRAPELESS_API_KEY=your_api_token_here
两种请求格式
Scraper API有两个端点。演员使用哪个端点取决于它返回什么。
| 家族 | 端点 | 演员 | 返回 |
|---|---|---|---|
| 网站 / SERP | POST https://api.scrapeless.com/api/v1/scraper/request |
scraper.amazon,scraper.google.search,scraper.shopeev2 |
特定演员的解析JSON(例如scraper.amazon → { html, metadata, result };scraper.google.search → organic_results,……顶层) |
| AI答案 | POST https://api.scrapeless.com/api/v2/scraper/execute |
scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode |
{ 状态, 任务_ID, 任务_结果 } |
两者都需要一个JSON主体 { "actor": "<名称>", "input": { … } } 和头部 x-api-token。input 字段因演员而异(见每个示例)。
示例 1 — 亚马逊产品 (v1)
bash
curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.amazon",
"input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
}'
响应中包含渲染的 html、一个 metadata 块和一个解析的 result 对象。result 是大多数管道直接使用的内容:
json
// 结果(简略) — 模式是规范的,值来自实时运行
{
"asin": "B09B8V1LZ3",
"title": "亚马逊Echo Dot(最新型号)…",
"final_price": "$49.99",
"availability": "有货",
"reviews_count": "193514",
"seller_name": "Amazon.com"
}
在Python中:
python
import os, requests
resp = requests.post(
"https://api.scrapeless.com/api/v1/scraper/request",
headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
json={"actor": "scraper.amazon",
"input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"]) # 解析后的对象;resp.json()["html"] 是完整页面
scraper.google.search 使用相同的 v1 端点,输入为 { "q": "网络爬虫" },但其解析的SERP以顶层返回 — organic_results、search_information、pagination、related_searches — 以及 metadata,没有 result 包装。
示例 2 — 一个AI答案 (v2)
AI答案演员需要一个 prompt 和一个 country,并返回模型的回复及其引用:
bash
curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.chatgpt",
"input": { "prompt": "最好的网络爬虫工具是什么?", "country": "US" }
}'
每次成功调用都会返回相同的封装:
json
// 模式是规范的,值来自实时运行
{
"status": "success",
"task_id": "…",
"task_result": {
"model": "gpt-5-5",
"result_text": "…模型的答案…",
"content_references": [ { "title": "…", "url": "https://…" } ],
"links": [ "https://…" ]
}
}
task_result 保存答案(result_text)、引用的来源(content_references)和提取的 links — 引用分析是字段读取,而不是解析。
其中一些演员需要一个额外的必填字段,如果您省略它,API会在其验证消息中说明:scraper.copilot 需要 "mode": "smart",scraper.grok 需要 "mode": "MODEL_MODE_AUTO",而 scraper.perplexity 接受 "web_search": true 来基础答案。scraper.gemini 和 scraper.aimode 只需要 { prompt, country }。
有关每个演员字段列表的完整信息,请参见 LLM Chat Scraper 文档。要获取有关这些演员之一的完整端到端构建的信息,请参见 Google AI 概览爬虫指南 并了解引用级别的捕获。
异步演员:提交,然后轮询
一些网站演员渲染一个重页面并异步回答。POST 返回一个 taskId 而不是有效负载:
json
{ "taskId": "ef2f7cef-…", "message": "任务正在进行中" }
轮询结果端点直到任务完成,然后读取相同的有效负载结构:
bash
curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
-H "x-api-token: $SCRAPELESS_API_KEY"
# 在仍在运行时:{ "state": "processing", "taskId": "…" }
scraper.shopeev2 遵循此模式。提交 shopee.sg 产品 URL ({ "url": "https://shopee.sg/<name>-i.<shopid>.<itemid>" }),然后轮询直到产品 JSON 到达。商店是区域限制的,因此不支持的域返回 该区域不支持。
您得到的内容
| 演员系列 | 顶层键 | 数据所在 |
|---|---|---|
| 网站 / SERP (v1) | 特定于演员的(amazon: html、metadata、result;google: organic_results,…顶层) |
解析的结构化字段;scraper.amazon 还返回完整渲染的 html |
| AI 答案 (v2) | 状态、任务_ID、任务_结果 |
task_result 保存答案文本、引用和链接 |
将缺失字段视为可空——模块根据产品、查询、地区和模型而异。首先读取演员呈现的内容(scraper.amazon的result,scraper.google.search的顶层SERP字段,或v2演员的task_result),仅在需要演员未解析的字段时回退到scraper.amazon的html。 |
常见问题
问:我如何进行身份验证?
每个请求都带有头部x-api-token: <你的密钥>。一个账户密钥适用于所有演员。在app.scrapeless.com的免费计划上创建一个密钥。
问:演员使用哪个端点——v1还是v2?
站点和SERP演员(scraper.amazon、scraper.google.search、scraper.shopeev2)使用/api/v1/scraper/request。AI回答演员(scraper.chatgpt、scraper.gemini、scraper.copilot、scraper.grok、scraper.perplexity、scraper.aimode)使用/api/v2/scraper/execute。
问:我如何找到演员所需的输入字段?
发送请求;如果缺少字段,API会返回验证消息,指出缺失字段(例如,scraper.copilot报告需要mode)。每个演员的参考信息在Scrapeless API文档中。
问:抓取这些网站合法吗?
这些演员收集公开可见的数据。规则因辖区和每个网站的服务条款而异,因此在大规模运行之前,请审查相关的服务条款,并咨询法律顾问以了解你的使用案例。切勿收集受GDPR或CCPA保护的个人数据。
问:我需要代理吗?
不需要。住宅出口和地理路由已内置于演员中——你发送输入,演员处理网络层。地区受限的目标只接受受支持的商店域名。
问:我可以在没有AI代理或SDK的情况下运行吗?
可以。这是普通的HTTP——curl、requests、fetch或任何HTTP客户端都可以直接工作。不需要SDK。
结论
抓取API将抓取简化为一个决定和一个请求:选择演员,发送{ actor, input }与您的x-api-token,并读取结构化字段。站点和SERP演员在/api/v1/scraper/request的响应为解析后的JSON,其形状因演员而异;AI回答演员在/api/v2/scraper/execute中以统一的{ status, task_id, task_result }信封响应;慢渲染通过你轮询的taskId异步回答。只需编写一次客户端包装器,并指向管道所需的任何演员。
准备好构建你的AI驱动的数据管道了吗?
加入我们的社区,领取免费的计划并与正在构建抓取API管道的开发者联系:Discord · Telegram。
在app.scrapeless.com注册以获得免费的抓取API积分,并将演员指向管道所需的网站、查询或AI答案。
在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。



