🎯 一款可定制、具备反检测功能的云浏览器,由自主研发的 Chromium驱动,专为网页爬虫AI 代理设计。👉立即试用
返回博客

喂养 AI 代理:通过抓取 API 执行者解锁亚马逊、谷歌和大型语言模型数据

Olivia Patel
Olivia Patel

Senior Cybersecurity Analyst

08-Jun-2026

主要要点:

  • 每个演员一个HTTP请求。 Scrapeless Scraper API将目标——一个亚马逊产品,一个谷歌搜索,一个人工智能回答——转换为对命名scraper.*演员的单个POST请求。无需驱动浏览器,无需维护解析器。
  • 按演员家族分为两个端点。 网站和SERP演员(scraper.amazonscraper.google.searchscraper.shopeev2)使用POST /api/v1/scraper/request并返回特定于演员的解析JSON。人工智能回答演员(scraper.chatgptscraper.geminiscraper.copilotscraper.grokscraper.perplexityscraper.aimode)使用POST /api/v2/scraper/execute并返回一个{ status, task_id, task_result }信封。
  • 配置文件头在各处一致。 每个调用都携带x-api-token: <your key>。一个账户密钥覆盖所有演员。
  • 结构化输出,而非原始HTML。 网站演员返回解析后的结构化JSON——scraper.amazon包括解析后的result和呈现的html,而scraper.google.search在顶层返回SERP字段——v2演员返回答案正文加上引用和链接作为JSON字段。
  • 渲染缓慢时异步处理。 某些网站演员返回一个taskId;提交后,轮询GET /api/v1/scraper/result/{taskId},直到有效负载准备就绪。
  • 免费开通。 新的Scrapeless账户附带免费的Scraper API积分——在app.scrapeless.com注册。

介绍:演员模型

传统的爬虫是三个工作连接在一起:绕过反机器人层,渲染页面,以及解析所需字段。Scrapeless Scraper API将这三者整合为一个调用。您指定一个演员——针对特定目标的预构建提取器——提供输入,并返回结构化数据。代理轮换、渲染和解析在服务器端运行。

演员目录分为三组:电子商务scraper.amazonscraper.shopeev2),搜索scraper.google.search),以及AI回答scraper.chatgptscraper.geminiscraper.copilotscraper.grokscraper.perplexityscraper.aimode)。本指南涵盖身份验证、两种请求格式、每个家族的工作示例、异步模式以及您实际会遇到的错误。


您可以用它做什么

  • 从市场URL中提取结构化产品数据 — 标题、价格、评分、可用性、ASIN — 只需一次请求。
  • 将搜索结果页面读作JSON,而不是自己抓取SERP标记。
  • 捕捉带有引用的AI回答 — 模型为提示返回的精确文本,外加它引用的来源,用于地理位置和品牌可见性跟踪。
  • 从任何地方运行 — 它是纯HTTP,因此curl、Python requests、Node fetch或任何具有HTTP客户端的语言均可正常工作。

为什么选择Scraper API

  • 无需浏览器,无需维护解析器。 演员在服务器端进行渲染和解析;您接收到字段,而不是需要遍历的DOM。
  • 一个密钥,一个家族格式。 单个x-api-token验证每个演员,每个家族返回一致的信封,因此一次编写的客户端包装可以在多个目标中重用。
  • 内置住宅出网和渲染功能。 演员处理地理路由和JavaScript渲染;您发送输入并读取结果。

app.scrapeless.com的免费计划中获取您的API密钥。Scraper API与Universal Scraping APIScraping Browser并列于定价目录中。


前提条件

  • 拥有一个Scrapeless账户和API密钥——在app.scrapeless.com注册。
  • curl进行快速测试,或使用Python 3.10+/Node.js 18+的客户端。
  • 对HTTP和JSON有基本的了解。

将您的密钥存储在环境中,以免进入代码:

bash Copy
export SCRAPELESS_API_KEY=your_api_token_here

两种请求格式

Scraper API有两个端点。演员使用哪个端点取决于它返回什么。

家族 端点 演员 返回
网站 / SERP POST https://api.scrapeless.com/api/v1/scraper/request scraper.amazonscraper.google.searchscraper.shopeev2 特定演员的解析JSON(例如scraper.amazon{ html, metadata, result }scraper.google.searchorganic_results,……顶层)
AI答案 POST https://api.scrapeless.com/api/v2/scraper/execute scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode { 状态, 任务_ID, 任务_结果 }

两者都需要一个JSON主体 { "actor": "<名称>", "input": { … } } 和头部 x-api-tokeninput 字段因演员而异(见每个示例)。


示例 1 — 亚马逊产品 (v1)

bash Copy
curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.amazon",
    "input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
  }'

响应中包含渲染的 html、一个 metadata 块和一个解析的 result 对象。result 是大多数管道直接使用的内容:

json Copy
// 结果(简略) — 模式是规范的,值来自实时运行
{
  "asin": "B09B8V1LZ3",
  "title": "亚马逊Echo Dot(最新型号)…",
  "final_price": "$49.99",
  "availability": "有货",
  "reviews_count": "193514",
  "seller_name": "Amazon.com"
}

在Python中:

python Copy
import os, requests

resp = requests.post(
    "https://api.scrapeless.com/api/v1/scraper/request",
    headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
    json={"actor": "scraper.amazon",
          "input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
    timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"])   # 解析后的对象;resp.json()["html"] 是完整页面

scraper.google.search 使用相同的 v1 端点,输入为 { "q": "网络爬虫" },但其解析的SERP以顶层返回 — organic_resultssearch_informationpaginationrelated_searches — 以及 metadata,没有 result 包装。


示例 2 — 一个AI答案 (v2)

AI答案演员需要一个 prompt 和一个 country,并返回模型的回复及其引用:

bash Copy
curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "最好的网络爬虫工具是什么?", "country": "US" }
  }'

每次成功调用都会返回相同的封装:

json Copy
// 模式是规范的,值来自实时运行
{
  "status": "success",
  "task_id": "…",
  "task_result": {
    "model": "gpt-5-5",
    "result_text": "…模型的答案…",
    "content_references": [ { "title": "…", "url": "https://…" } ],
    "links": [ "https://…" ]
  }
}

task_result 保存答案(result_text)、引用的来源(content_references)和提取的 links — 引用分析是字段读取,而不是解析。

其中一些演员需要一个额外的必填字段,如果您省略它,API会在其验证消息中说明:scraper.copilot 需要 "mode": "smart"scraper.grok 需要 "mode": "MODEL_MODE_AUTO",而 scraper.perplexity 接受 "web_search": true 来基础答案。scraper.geminiscraper.aimode 只需要 { prompt, country }

有关每个演员字段列表的完整信息,请参见 LLM Chat Scraper 文档。要获取有关这些演员之一的完整端到端构建的信息,请参见 Google AI 概览爬虫指南 并了解引用级别的捕获。


异步演员:提交,然后轮询

一些网站演员渲染一个重页面并异步回答。POST 返回一个 taskId 而不是有效负载:

json Copy
{ "taskId": "ef2f7cef-…", "message": "任务正在进行中" }

轮询结果端点直到任务完成,然后读取相同的有效负载结构:

bash Copy
curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
  -H "x-api-token: $SCRAPELESS_API_KEY"
# 在仍在运行时:{ "state": "processing", "taskId": "…" }

scraper.shopeev2 遵循此模式。提交 shopee.sg 产品 URL ({ "url": "https://shopee.sg/<name>-i.<shopid>.<itemid>" }),然后轮询直到产品 JSON 到达。商店是区域限制的,因此不支持的域返回 该区域不支持


您得到的内容

演员系列 顶层键 数据所在
网站 / SERP (v1) 特定于演员的(amazon: htmlmetadataresult;google: organic_results,…顶层) 解析的结构化字段;scraper.amazon 还返回完整渲染的 html
AI 答案 (v2) 状态任务_ID任务_结果 task_result 保存答案文本、引用和链接
将缺失字段视为可空——模块根据产品、查询、地区和模型而异。首先读取演员呈现的内容(scraper.amazonresultscraper.google.search的顶层SERP字段,或v2演员的task_result),仅在需要演员未解析的字段时回退到scraper.amazonhtml

常见问题

问:我如何进行身份验证?

每个请求都带有头部x-api-token: <你的密钥>。一个账户密钥适用于所有演员。在app.scrapeless.com的免费计划上创建一个密钥。

问:演员使用哪个端点——v1还是v2?

站点和SERP演员(scraper.amazonscraper.google.searchscraper.shopeev2)使用/api/v1/scraper/request。AI回答演员(scraper.chatgptscraper.geminiscraper.copilotscraper.grokscraper.perplexityscraper.aimode)使用/api/v2/scraper/execute

问:我如何找到演员所需的输入字段?

发送请求;如果缺少字段,API会返回验证消息,指出缺失字段(例如,scraper.copilot报告需要mode)。每个演员的参考信息在Scrapeless API文档中。

问:抓取这些网站合法吗?

这些演员收集公开可见的数据。规则因辖区和每个网站的服务条款而异,因此在大规模运行之前,请审查相关的服务条款,并咨询法律顾问以了解你的使用案例。切勿收集受GDPR或CCPA保护的个人数据。

问:我需要代理吗?

不需要。住宅出口和地理路由已内置于演员中——你发送输入,演员处理网络层。地区受限的目标只接受受支持的商店域名。

问:我可以在没有AI代理或SDK的情况下运行吗?

可以。这是普通的HTTP——curl、requestsfetch或任何HTTP客户端都可以直接工作。不需要SDK。


结论

抓取API将抓取简化为一个决定和一个请求:选择演员,发送{ actor, input }与您的x-api-token,并读取结构化字段。站点和SERP演员在/api/v1/scraper/request的响应为解析后的JSON,其形状因演员而异;AI回答演员在/api/v2/scraper/execute中以统一的{ status, task_id, task_result }信封响应;慢渲染通过你轮询的taskId异步回答。只需编写一次客户端包装器,并指向管道所需的任何演员。

准备好构建你的AI驱动的数据管道了吗?

加入我们的社区,领取免费的计划并与正在构建抓取API管道的开发者联系:Discord · Telegram

app.scrapeless.com注册以获得免费的抓取API积分,并将演员指向管道所需的网站、查询或AI答案。

在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。

最受欢迎的文章

目录