喂养 AI 代理：通过抓取 API 执行者解锁亚马逊、谷歌和大型语言模型数据

Olivia Patel

Senior Cybersecurity Analyst

08-Jun-2026

主要要点：

每个演员一个HTTP请求。 Scrapeless Scraper API将目标——一个亚马逊产品，一个谷歌搜索，一个人工智能回答——转换为对命名scraper.*演员的单个POST请求。无需驱动浏览器，无需维护解析器。
按演员家族分为两个端点。 网站和SERP演员（scraper.amazon，scraper.google.search，scraper.shopeev2）使用POST /api/v1/scraper/request并返回特定于演员的解析JSON。人工智能回答演员（scraper.chatgpt，scraper.gemini，scraper.copilot，scraper.grok，scraper.perplexity，scraper.aimode）使用POST /api/v2/scraper/execute并返回一个{ status, task_id, task_result }信封。
配置文件头在各处一致。 每个调用都携带x-api-token: <your key>。一个账户密钥覆盖所有演员。
结构化输出，而非原始HTML。 网站演员返回解析后的结构化JSON——scraper.amazon包括解析后的result和呈现的html，而scraper.google.search在顶层返回SERP字段——v2演员返回答案正文加上引用和链接作为JSON字段。
渲染缓慢时异步处理。 某些网站演员返回一个taskId；提交后，轮询GET /api/v1/scraper/result/{taskId}，直到有效负载准备就绪。
免费开通。 新的Scrapeless账户附带免费的Scraper API积分——在app.scrapeless.com注册。

介绍：演员模型

传统的爬虫是三个工作连接在一起：绕过反机器人层，渲染页面，以及解析所需字段。Scrapeless Scraper API将这三者整合为一个调用。您指定一个演员——针对特定目标的预构建提取器——提供输入，并返回结构化数据。代理轮换、渲染和解析在服务器端运行。

演员目录分为三组：电子商务（scraper.amazon，scraper.shopeev2），搜索（scraper.google.search），以及AI回答（scraper.chatgpt，scraper.gemini，scraper.copilot，scraper.grok，scraper.perplexity，scraper.aimode）。本指南涵盖身份验证、两种请求格式、每个家族的工作示例、异步模式以及您实际会遇到的错误。

您可以用它做什么

从市场URL中提取结构化产品数据 — 标题、价格、评分、可用性、ASIN — 只需一次请求。
将搜索结果页面读作JSON，而不是自己抓取SERP标记。
捕捉带有引用的AI回答 — 模型为提示返回的精确文本，外加它引用的来源，用于地理位置和品牌可见性跟踪。
从任何地方运行 — 它是纯HTTP，因此curl、Python requests、Node fetch或任何具有HTTP客户端的语言均可正常工作。

为什么选择Scraper API

无需浏览器，无需维护解析器。 演员在服务器端进行渲染和解析；您接收到字段，而不是需要遍历的DOM。
一个密钥，一个家族格式。 单个x-api-token验证每个演员，每个家族返回一致的信封，因此一次编写的客户端包装可以在多个目标中重用。
内置住宅出网和渲染功能。 演员处理地理路由和JavaScript渲染；您发送输入并读取结果。

在app.scrapeless.com的免费计划中获取您的API密钥。Scraper API与Universal Scraping API和Scraping Browser并列于定价目录中。

前提条件

拥有一个Scrapeless账户和API密钥——在app.scrapeless.com注册。
curl进行快速测试，或使用Python 3.10+/Node.js 18+的客户端。
对HTTP和JSON有基本的了解。

将您的密钥存储在环境中，以免进入代码：

bash Copy

export SCRAPELESS_API_KEY=your_api_token_here

两种请求格式

Scraper API有两个端点。演员使用哪个端点取决于它返回什么。

家族	端点	演员	返回
网站 / SERP	`POST https://api.scrapeless.com/api/v1/scraper/request`	`scraper.amazon`，`scraper.google.search`，`scraper.shopeev2`	特定演员的解析JSON（例如`scraper.amazon` → `{ html, metadata, result }`；`scraper.google.search` → `organic_results`，……顶层）
AI答案	`POST https://api.scrapeless.com/api/v2/scraper/execute`	`scraper.chatgpt`, `scraper.gemini`, `scraper.copilot`, `scraper.grok`, `scraper.perplexity`, `scraper.aimode`	`{ 状态, 任务_ID, 任务_结果 }`

两者都需要一个JSON主体 { "actor": "<名称>", "input": { … } } 和头部 x-api-token。input 字段因演员而异（见每个示例）。

示例 1 — 亚马逊产品 (v1)

bash Copy

curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.amazon",
    "input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
  }'

响应中包含渲染的 html、一个 metadata 块和一个解析的 result 对象。result 是大多数管道直接使用的内容：

json Copy

// 结果（简略） — 模式是规范的，值来自实时运行
{
  "asin": "B09B8V1LZ3",
  "title": "亚马逊Echo Dot（最新型号）…",
  "final_price": "$49.99",
  "availability": "有货",
  "reviews_count": "193514",
  "seller_name": "Amazon.com"
}

在Python中：

python Copy

import os, requests

resp = requests.post(
    "https://api.scrapeless.com/api/v1/scraper/request",
    headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
    json={"actor": "scraper.amazon",
          "input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
    timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"])   # 解析后的对象；resp.json()["html"] 是完整页面

scraper.google.search 使用相同的 v1 端点，输入为 { "q": "网络爬虫" }，但其解析的SERP以顶层返回 — organic_results、search_information、pagination、related_searches — 以及 metadata，没有 result 包装。

示例 2 — 一个AI答案 (v2)

AI答案演员需要一个 prompt 和一个 country，并返回模型的回复及其引用：

bash Copy

curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "最好的网络爬虫工具是什么？", "country": "US" }
  }'

每次成功调用都会返回相同的封装：

json Copy

// 模式是规范的，值来自实时运行
{
  "status": "success",
  "task_id": "…",
  "task_result": {
    "model": "gpt-5-5",
    "result_text": "…模型的答案…",
    "content_references": [ { "title": "…", "url": "https://…" } ],
    "links": [ "https://…" ]
  }
}

task_result 保存答案（result_text）、引用的来源（content_references）和提取的 links — 引用分析是字段读取，而不是解析。

其中一些演员需要一个额外的必填字段，如果您省略它，API会在其验证消息中说明：scraper.copilot 需要 "mode": "smart"，scraper.grok 需要 "mode": "MODEL_MODE_AUTO"，而 scraper.perplexity 接受 "web_search": true 来基础答案。scraper.gemini 和 scraper.aimode 只需要 { prompt, country }。

有关每个演员字段列表的完整信息，请参见 LLM Chat Scraper 文档。要获取有关这些演员之一的完整端到端构建的信息，请参见 Google AI 概览爬虫指南并了解引用级别的捕获。

异步演员：提交，然后轮询

一些网站演员渲染一个重页面并异步回答。POST 返回一个 taskId 而不是有效负载：

json Copy

{ "taskId": "ef2f7cef-…", "message": "任务正在进行中" }

轮询结果端点直到任务完成，然后读取相同的有效负载结构：

bash Copy

curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
  -H "x-api-token: $SCRAPELESS_API_KEY"
# 在仍在运行时：{ "state": "processing", "taskId": "…" }

scraper.shopeev2 遵循此模式。提交 shopee.sg 产品 URL ({ "url": "https://shopee.sg/<name>-i.<shopid>.<itemid>" })，然后轮询直到产品 JSON 到达。商店是区域限制的，因此不支持的域返回 该区域不支持。

您得到的内容

演员系列	顶层键	数据所在
网站 / SERP (v1)	特定于演员的（amazon: `html`、`metadata`、`result`；google: `organic_results`，…顶层）	解析的结构化字段；`scraper.amazon` 还返回完整渲染的 `html`
AI 答案 (v2)	`状态`、`任务_ID`、`任务_结果`	`task_result` 保存答案文本、引用和链接
将缺失字段视为可空——模块根据产品、查询、地区和模型而异。首先读取演员呈现的内容（`scraper.amazon`的`result`，`scraper.google.search`的顶层SERP字段，或v2演员的`task_result`），仅在需要演员未解析的字段时回退到`scraper.amazon`的`html`。

常见问题

问：我如何进行身份验证？

每个请求都带有头部x-api-token: <你的密钥>。一个账户密钥适用于所有演员。在app.scrapeless.com的免费计划上创建一个密钥。

问：演员使用哪个端点——v1还是v2？

站点和SERP演员（scraper.amazon、scraper.google.search、scraper.shopeev2）使用/api/v1/scraper/request。AI回答演员（scraper.chatgpt、scraper.gemini、scraper.copilot、scraper.grok、scraper.perplexity、scraper.aimode）使用/api/v2/scraper/execute。

问：我如何找到演员所需的输入字段？

发送请求；如果缺少字段，API会返回验证消息，指出缺失字段（例如，scraper.copilot报告需要mode）。每个演员的参考信息在Scrapeless API文档中。

问：抓取这些网站合法吗？

这些演员收集公开可见的数据。规则因辖区和每个网站的服务条款而异，因此在大规模运行之前，请审查相关的服务条款，并咨询法律顾问以了解你的使用案例。切勿收集受GDPR或CCPA保护的个人数据。

问：我需要代理吗？

不需要。住宅出口和地理路由已内置于演员中——你发送输入，演员处理网络层。地区受限的目标只接受受支持的商店域名。

问：我可以在没有AI代理或SDK的情况下运行吗？

可以。这是普通的HTTP——curl、requests、fetch或任何HTTP客户端都可以直接工作。不需要SDK。

结论

抓取API将抓取简化为一个决定和一个请求：选择演员，发送{ actor, input }与您的x-api-token，并读取结构化字段。站点和SERP演员在/api/v1/scraper/request的响应为解析后的JSON，其形状因演员而异；AI回答演员在/api/v2/scraper/execute中以统一的{ status, task_id, task_result }信封响应；慢渲染通过你轮询的taskId异步回答。只需编写一次客户端包装器，并指向管道所需的任何演员。