🎯 一款可定制、具备反检测功能的云浏览器,由自主研发的 Chromium驱动,专为网页爬虫AI 代理设计。👉立即试用
返回博客

如何将Scrapeless MCP服务器集成到ZeroClaw中:逐步指南

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

18-May-2026

关键要点:

  • 一个TOML块将云浏览器连接到本地Rust代理。 ZeroClaw是一个单一二进制AI代理运行时,它与LLM提供者通信,监听30多个频道,并通过工具进行操作。只需在~/.zeroclaw/config.toml中添加四行[mcp]块即可添加Scrapeless MCP服务器——无需SDK安装,无需管理守护进程,无需在代理端更改代码。
  • 二十个MCP工具,两个表面。 Scrapeless MCP服务器公开了google_searchgoogle_trends、完整的browser_*云浏览器原始工具集,以及scrape_html / scrape_markdown / scrape_screenshot。Stdio传输通过npx -y scrapeless-mcp-server在本地运行;可流式传输的HTTP指向https://api.scrapeless.com/mcp
  • MCP和代理技能是互补的,而不是替代品。 MCP服务器为ZeroClaw提供了工具Scrapeless OpenClaw技能——webunlocker-skillllm-chat-scraper-skill——为其提供了底层Scrapeless API的使用方法。ZeroClaw从OpenClaw迁移,并读取相同的SKILL.md格式,因此技能可以放入~/.zeroclaw/workspace/skills/并通过zeroclaw skills list调用。
  • 反检测云浏览器,195多个国家的住宅代理。 Scrapeless处理JavaScript渲染、住宅代理出口、指纹随机化(UA、时区、WebGL、画布)和会话持久性,因此ZeroClaw代理可以专注于任务,而不是规避细节。
  • 发现→提取适用于任何网站。 使用google_search定位页面,使用scrape_markdown从JS渲染的SPA中提取干净文本,使用browser_*工具处理分页或交互流程,以及使用google_trends获取时间序列上下文。代理将它们组合在一起;协议中的内容并不针对特定目标。
  • 免费开始。 新的Scrapeless账户包括免费的MCP运行时——在app.scrapeless.com注册。

介绍:从本地Rust代理到实时网络访问

ZeroClaw是一个完全在操作员机器上运行的Rust代理运行时。一个二进制,一个TOML配置,操作员的密钥,操作员的工作区。它与~20个LLM提供者通信,通过Discord、Telegram、Matrix、电子邮件、语音、网络钩子和CLI接入世界,并通过shell、浏览器、HTTP、硬件和MCP服务器工具进行操作。该31k星级的仓库构建了一个基于监督自治、操作系统级沙箱(Landlock、Bubblewrap、Seatbelt、Docker)和每个操作的加密工具凭证的安全模型。

任何本地代理运行时的基本限制与每个LLM面临的限制相同:模型的知识在训练截止时被冻结。对于研究、监控、潜在客户生成、竞争情报和针对实时发布者数据的RAG,这一限制在代理必须读取一个在模型训练时不存在的页面时显现出来。ZeroClaw内置的浏览器和HTTP工具覆盖了良性页面和文档查找;在Cloudflare、Akamai、reCAPTCHA或IP声誉过滤后面的商业页面则是这些工具未针对的不同表面。

这篇文章将讨论如何通过运行时支持的两种集成表面将Scrapeless连接到ZeroClaw:Scrapeless MCP服务器(向代理公开新工具的标准方式)和Scrapeless OpenClaw技能(代理加载的标准知识文件,以有效驱动这些工具)。两者相辅相成——MCP服务器是代理调用的内容;技能是告知它何时以及如何调用底层Scrapeless API的内容。对于通过其他客户端公开的相同Scrapeless原语,MCP服务器教程介绍了Claude Desktop / Cursor / Codex CLI,而Hermes集成文章涵盖了已经使用Chrome开发者工具协议的代理的直接CDP路径。


什么是ZeroClaw?

ZeroClaw是一个单一的Rust二进制文件,可以在操作员自己的机器上启动代理运行时。维护者将其描述为“你拥有代理,你拥有数据,你拥有它运行的机器。”该运行时围绕四个移动部分结构化:

  • 通道(30多个适配器)。 来自Discord、Telegram、Matrix、电子邮件、语音、网络钩子、CLI和ACP IDE桥的输入消息——所有消息都路由到相同的代理循环。
  • 提供者(~20个LLM后端)。 Anthropic、OpenAI、Ollama,任何与OpenAI兼容的端点。后备链和路由确保在提供者出问题时,代理能够正常运行。
  • 工具(shell、浏览器、HTTP、硬件、MCP)。 操作表面。MCP服务器作为一流工具与内置工具一起注册。
  • 安全政策和标准操作程序引擎。 默认自主权为监督:中风险操作需要批准,高风险操作被阻止。标准操作程序会在 MQTT、webhook、cron 或外部事件发生时触发,并带有批准门和可恢复运行。

配置存储在一个地方:~/.zeroclaw/config.toml。工作区——技能、内存、日志、MCP 状态——存储在 ~/.zeroclaw/workspace/ 下。来自 OpenClaw 的操作员可以直接导入工作区;技能格式是相同的。


为什么要为您的 ZeroClaw 代理添加网络访问

驱动 ZeroClaw 的 LLM 具有相同的限制:训练截止。在一个快速变化的环境中,产生三种可观察的故障模式——过时的答案、幻觉事实和对 URL 的工具调用,这些 URL 之后已经变更或返回 404。

ZeroClaw 内置了 httpbrowser 工具,涵盖了广泛的应用场景。它们并未针对商业网页进行优化:JS 渲染的 SPA、反机器人插页、验证码挑战和地理限制内容位于代理与操作员所需数据之间。将 Scrapeless 接入后,这些故障模式转变为正常的工具调用:

  • 通过 google_search(Google,带本地化 gl + hl 参数)和 google_trends(时间序列兴趣数据)进行 实时研究
  • 通过 scrape_markdown 对多个结果 URL 进行 跨源验证,在单个代理回合中完成。
  • 通过 browser_* 云浏览器原语进行 实时数据收集,来自 JS 密集型网站——定价页面、市场列表、评论页面、公共目录。
  • 通过在特定国家分配会话进行 地理绑定查询,使代理看到本地用户所见的内容。

如何使用 Scrapeless 扩展 ZeroClaw:两个接口

Scrapeless 通过两个接口支持 ZeroClaw,并可同时使用:

  • Scrapeless MCP 服务器 — 官方服务器,通过模型上下文协议暴露 20 种云浏览器、SERP 和抓取工具。
  • Scrapeless OpenClaw 技能 — 格式为 SKILL.md 的知识文件,教会代理如何有效地驱动 Scrapeless 通用抓取 API 和 LLM 聊天抓取器。ZeroClaw 可以直接导入 OpenClaw 技能。

MCP 服务器是代理 调用 的对象,而技能是代理 读取以决定何时以及如何调用 的内容。它们不是替代品——一起安装时,代理同时拥有工具和操作手册。

Scrapeless MCP 服务器

MCP 服务器开箱即用提供 20 种工具。核心工具集如下:

工具 功能
google_search 使用 gl / hl 本地化参数进行 SERP 检索。
google_trends 流行搜索和时间序列兴趣数据。
scrape_markdown 通过云浏览器呈现 URL,并返回 Markdown。
scrape_html 同上,返回完整的渲染 HTML。
scrape_screenshot 捕获任何页面的高质量截图。
browser_create 分配(或重用)云浏览器会话。
browser_goto 导航会话至某个 URL。
browser_click / browser_type / browser_press_key 驱动交互式页面元素。
browser_scroll / browser_scroll_to 触发懒加载内容。
browser_get_html / browser_get_text 从当前云浏览器页面提取。
browser_screenshot / browser_snapshot 捕获状态以供审查或后续处理。
browser_wait_for / browser_wait 等待选择器或固定持续时间。
browser_close 释放会话。

支持两种传输方式。标准输入(npx -y scrapeless-mcp-server)是本地运行 ZeroClaw 的工作站的默认方式;可流式传输的 HTTP(https://api.scrapeless.com/mcp)是当代理在远程主机上运行,并且操作员希望由 Scrapeless 托管 MCP 服务器,而不是每次调用时创建时的默认方式。

Scrapeless OpenClaw 技能

这些技能是具有小型 Python 运行时的 SKILL.md 文件,封装了特定的 Scrapeless API。二者都在官方 Scrapeless GitHub 组织中发布:

技能 教导代理的内容
webunlocker-skill 驱动 Scrapeless 通用抓取 API——抓取 HTML / 普通文本 / Markdown / 截图 / 结构化内容,并自动解决验证码(reCAPTCHA、Cloudflare Turnstile、Cloudflare Challenge)、JS 渲染、住宅代理出口带 --country,重试,以及支持 POST + 自定义头。
llm-chat-scraper-skill 收集来自 ChatGPT、Gemini、Perplexity 和 Grok 的结构化聊天响应——用于 AI 搜索监测和 GEO 测量工作流。

ZeroClaw 继承了 OpenClaw 技能格式。技能被克隆到 ~/.zeroclaw/workspace/skills/ 中,通过 zeroclaw skills list 列出,并在下次 zeroclaw agent 会话中对代理可用。

你可以用它做什么

  • 每日监控代理。 安排一个每天早上运行的 ZeroClaw SOP:google_search 跟踪的关键词,scrape_markdown 三个最好的结果,进行总结,通过 Discord 渠道适配器发送。
  • AI 搜索可见性跟踪。 使用 LLM Chat Scraper 技能,按节奏提取 ChatGPT、Gemini、Perplexity 和 Grok 对品牌相关提示的响应;跟踪随时间变化的存在感和情绪。
  • 来自公共目录的潜在客户生成。 通过分页公共目录驱动云浏览器,通过域名去重,将记录交给代理的内存存储。
  • 有人工参与的身份验证表单填写。 将供应商入职或职位申请表驱动到最终审查屏幕,拍摄全页屏幕截图,在提交前停止,以便人工批准。
  • 与地理限制的竞争对手定价对比。 在特定国家分配会话,呈现本地化定价页面,与之前的快照进行比较,当阈值触发时向频道发送消息。
  • 基于实时出版商数据的 RAG。 渲染出版商页面,通过 scrape_markdown 清理文本,嵌入到 ZeroClaw 的 SQLite + 嵌入内存中,以便将来检索。
  • 绕过 Cloudflare 针对良性研究目标。 Web Unlocker 技能自动处理 Turnstile 和 Challenge 页面;代理只看到干净的 Markdown 有效载荷。

在 Scrapeless,我们只访问公开可用的数据,并严格遵守适用的法律、法规和网站隐私政策。本文内容仅供演示用途。


为什么选择 Scrapeless

Scrapeless 是一个抗检测的云浏览器,加上一个通用抓取 API,加上一个 SERP API,再加上一个 LLM Chat Scraper,所有这一切都通过一个 API 密钥进行。具体到 ZeroClaw,它提供:

  • 一个本地的 MCP 服务器 — 无需安装 SDK,无需适配器代码。~/.zeroclaw/config.toml 中的 MCP 块即是整个集成。
  • 云端 JavaScript 渲染,使单页应用(SPA)、无限滚动 feeds 和懒加载面板成为 browser_* 工具和 scrape_markdown 的优先目标。
  • 覆盖195个以上国家的住宅代理,使得与地理相关的查询返回当地用户看到的列表。
  • 每个会话的抗检测指纹识别 — UA、时区、语言、屏幕分辨率、WebGL、画布每个会话随机化。
  • 自动 CAPTCHA 解决,支持 reCAPTCHA、Cloudflare Turnstile 和 Cloudflare Challenge 通过 Web Unlocker 界面。
  • 一个统一的管理界面 — 一个 API 密钥,一个仪表板,新的账户计划中有免费运行时间积分。

app.scrapeless.com 上获取免费计划的 API 密钥。完整的 MCP 工具界面文档在 github.com/scrapeless-ai/scrapeless-mcp-server;API 接口文档在 docs.scrapeless.com


先决条件

  • 类 UNIX 主机。 Linux、macOS 或 Windows 上的 WSL2。ZeroClaw 发布 Windows 版本,但安装脚本和技能脚本假设为 POSIX shell,因此最佳路径是 Linux / macOS / WSL2。
  • Node.js 18 或更新版本 用于 MCP stdio 传输(npx -y scrapeless-mcp-server)。
  • Python 3.10 或更新版本 用于 OpenClaw 技能(它们作为 Python 脚本在 scripts/ 中提供)。
  • Rust 工具链 如果从源代码安装;预构建的二进制路径不需要额外内容。
  • Scrapeless 账户和 API 密钥 — 在 app.scrapeless.com 注册,并从 设置 → API 密钥管理 中复制密钥。
  • LLM 提供者密钥 — Anthropic、OpenAI、Ollama 或任何兼容 OpenAI 的端点。ZeroClaw 的入职向导会将其接入。
  • git 用于克隆技能代码库。
  • jq 是可选的 — 在管道 CLI 输出时很方便,但 MCP 路径并不需要。

安装 ZeroClaw

完整设置分为两个子步骤。

1. 运行安装程序

bash Copy
curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/master/install.sh | bash

安装程序会询问是否获取预构建的二进制文件(约几秒)或从源代码构建(速度较慢,可定制)。两者最终都会以相同方式结束 — zeroclaw onboard 会自动启动。要跳过最后的向导,请传递 --skip-onboard 并在之后运行 zeroclaw onboard

验证二进制文件是否在路径上:

bash Copy
zeroclaw --version

输出应类似于 zeroclaw 0.7.5 或更新版本。

2. 完成入职向导

bash Copy
zeroclaw onboard

向导将引导您选择提供者、线路通道、自主模式和个性化。对于此集成,有两个设置很重要:

  • 提供者 — 选择已经配置的 LLM 提供者(OpenAI、Anthropic、Ollama、兼容 OpenAI 的网关)。在提示时粘贴 API 密钥。
  • 自主性受监督是安全的默认设置;代理将在调用中风险工具之前提示。MCP工具默认计算为中等风险。对于提示造成摩擦的开发环境,向导还提供 yolo 模式,操作员仅应在信任的机器上开启。

通过启动聊天确认运行时已启动:

bash Copy
zeroclaw agent

如果返回“嘿!”则应正常完成。如果是,则运行时健康,下一步是连接MCP服务器。


将ZeroClaw连接到Scrapeless MCP服务器

1. 在ZeroClaw外部进行MCP服务器的烟雾测试

在将MCP块添加到config.toml之前,确认服务器能够独立启动。ZeroClaw在代理启动时懒加载MCP服务器,因此只有在代理第一次运行时,错误的配置才会暴露——最好现在就捕捉它:

bash Copy
SCRAPELESS_KEY="<YOUR_SCRAPELESS_KEY>" npx -y scrapeless-mcp-server

在第一次运行时,npx从注册表下载scrapeless-mcp-server,并通过标准输入启动服务器。该进程保持附加状态;按Ctrl-C释放它。如果它打印了启动横幅并等待MCP请求,则凭证和包都有效。

在免费计划中获取您的API密钥:app.scrapeless.com

2. 将MCP块添加到 ~/.zeroclaw/config.toml

ZeroClaw从全局配置中的[mcp]块读取MCP服务器配置。添加(或合并)以下内容:

toml Copy
# ~/.zeroclaw/config.toml

[mcp]
enabled = true
deferred_loading = true
servers = [
  { name = "scrapeless", command = "npx", transport = "stdio", args = ["-y", "scrapeless-mcp-server"], env = { SCRAPELESS_KEY = "<YOUR_SCRAPELESS_KEY>" }, headers = {} }
]

注意:

  • enabled = true激活MCP子系统。最近的ZeroClaw版本默认为关闭状态。

  • deferred_loading = true保持守护进程启动快速;ZeroClaw仅在代理实际启动会话时生成npx

  • env.SCRAPELESS_KEY是身份验证表面——与步骤1中的烟雾测试使用的密钥相同。

  • 对于托管的可流式HTTP传输而不是标准输入,交换条目为:

    toml Copy
    { name = "scrapeless", transport = "http", url = "https://api.scrapeless.com/mcp", headers = { "x-api-token" = "<YOUR_SCRAPELESS_KEY>" } }

    ZeroClaw的MCP客户端堆栈支持三种传输值——stdiohttpsse——通过验证强制执行标准输入的command / args以及远程传输的url / headers(根据ZeroClaw问题#1380)。当ZeroClaw在远程主机(VPS或容器)上运行且操作员不希望npx在其中运行时,HTTP传输是正确的默认值。

3. 从ZeroClaw内部验证连接

重新启动代理会话,以使其获取新配置并懒加载MCP服务器:

bash Copy
zeroclaw agent

在新聊天中,询问:

Copy
您可以访问哪些Scrapeless MCP工具?

代理应列出之前提到的20个工具 —— google_searchgoogle_trendsbrowser_*集合、scrape_htmlscrape_markdownscrape_screenshot。如果答案说没有工具,最常见的原因是[mcp]中的enabled = false;第二常见原因是SCRAPELESS_KEY中的拼写错误。


安装Scrapeless OpenClaw技能

MCP服务器是工具。技能是剧本。两个Scrapeless技能与ZeroClaw配合使用,因为运行时直接支持OpenClaw技能格式。

1. 在~/.zeroclaw/config.toml中允许技能脚本

两个Scrapeless技能都提供scripts/目录,代理将在其中执行。设置[skills]部分中的allow_scripts = true

toml Copy
# ~/.zeroclaw/config.toml

[skills]
allow_scripts = true

allow_scripts 默认关闭以确保安全。开启它则允许ZeroClaw根据已经实施的自主权政策运行技能打包的脚本;中风险的脚本调用仍会在受监督模式下请求批准。

2. 克隆技能库

bash Copy
mkdir -p ~/.zeroclaw/workspace/skills
git clone https://github.com/scrapeless-ai/webunlocker-skill ~/.zeroclaw/workspace/skills/webunlocker-skill
git clone https://github.com/scrapeless-ai/llm-chat-scraper-skill ~/.zeroclaw/workspace/skills/llm-chat-scraper-skill

3. 安装Python依赖和API令牌

Web Unlocker技能提供requirements.txt

bash Copy
cd ~/.zeroclaw/workspace/skills/webunlocker-skill
pip install -r requirements.txt
cp .env.example .env
# 然后编辑 .env 并设置 X_API_TOKEN=<YOUR_SCRAPELESS_KEY>

如果在代理的范围内,也对LLM Chat Scraper技能重复执行此操作。

4. 验证技能是否在ZeroClaw中可见

bash Copy
zeroclaw skills list

输出应包括 webunlocker-skillllm-chat-scraper-skill。如果缺少它们,最常见的原因是克隆落在 ~/.zeroclaw/skills/ 下而不是 ~/.zeroclaw/workspace/skills/ — 后者是运行时监视的路径。


ZeroClaw + Scrapeless 实践案例

一个现实的示例:运营者跟踪的主题的每日竞争情报简报。代理定位新鲜来源,提取内容,并生成结构化摘要,通过代理绑定的任一渠道发送。

zeroclaw agent 中,粘贴:

Copy
为我生成关于“AI 代理框架”的过去 7 天的竞争情报简报。

1. 使用 Scrapeless MCP `google_search` 工具找到本周发布的 5 条最相关的新闻/博客
   文章。使用 gl=us, hl=en。
2. 对于每个结果 URL,使用 `scrape_markdown` 提取文章正文。丢弃
   导航内容和广告。
3. 使用 `google_trends` 获取查询
   “AI 代理框架”的 7 天兴趣曲线,以便我能够将需求信号与供应信号结合起来。
4. 生成结构化的 Markdown 报告,包含:
   - 5 篇文章中的前三大主题,每个主题附有一段总结和
     来源 URL。
   - 7 天的趋势方向 (上升/平稳/下降)及峰值日期。
   - 一条“本周的变化”提示——相较于上周的简报,有什么新内容。

如果目标页面阻止云浏览器,退回到 `browser_create` +
`browser_goto` + `browser_get_text` 仅针对该 URL。不要替换合成
内容;如果无法检索来源,将其列在“未检索来源”下。

代理的计划,通俗易懂:

  1. 调用 google_search(q="AI agent frameworks", gl="us", hl="en") 并选择看起来像主要来源的五个最新结果(跳过聚合页面)。
  2. 通过 scrape_markdown 处理 URLs,并将清理后的正文文本保存在工作内存中。
  3. 调用 google_trends(q="AI agent frameworks", date="now 7-d") 获取兴趣曲线。
  4. 汇总成 Markdown 简报。
  5. 对于任何通过 scrape_markdown 返回反机器人插页的 URL,通过 browser_createbrowser_gotobrowser_get_text 链进行重试,以启动车载浏览器会话并等待加载后再提取。

在每次工具调用之前,ZeroClaw 的 supervised 自主模式会提示确认 — Y 表示一次性确认,A 表示在同一会话中记住该权限以供将来工具调用使用。

要发送提示而无需进入交互聊天:

bash Copy
zeroclaw agent --message "为我生成关于 AI 代理框架的过去 7 天的竞争情报简报……"

要将此转变为计划运行而非临时提示,请在 cron 日程上注册 SOP,并将其绑定到代理应通过的任一信道适配器(Discord、Telegram、电子邮件)交付简报。MCP 工具和技能保持不变;只有触发器发生更改。


您将收到的内容

简报将以 Markdown 格式返回,内容如下 — 摘自以上提示对五个实时 SERP 结果 "AI agent frameworks 2026" 的实际运行:

markdown Copy
# AI 代理框架 — 每周简报(2026年5月12日当周)

## 主题(过去 7 天)
1. **LangGraph 是共识生产标准。** 本周发布的所有三篇深入
   比较(Towards AI、GuruSup、Alice Labs)均将 LangGraph 排在生产工作负载的第一位。引用的原因趋同:
   确定性图形执行、原生的人机交互检查点,
   以及通过 LangSmith 提供的一流可观察性。
   来源: https://pub.towardsai.net/top-ai-agent-frameworks-in-2026-a-production-ready-comparison-7ba5e39ad56d
2. **MCP 正在成为跨框架工具集成标准。**
   Anthropic 的模型上下文协议 — 现由 Linux 基金会管理,
   OpenAI、Google、Microsoft、AWS 和 Salesforce 均在支持者名单上 —
   在三篇比较中的两篇中被引用为代理与工具的标准。
   来源: https://gurusup.com/blog/best-multi-agent-frameworks-2026
3. **AutoGen / AG2 分裂是 2025–2026 年的主要发展。** Microsoft
   已将 AutoGen 重写为 v0.4+ 并提供了新 API;社区继续使用 v0.2
   系列作为 AG2 (ag2.ai)。无论是 Alice Labs 还是 GuruSup 都指出这是团队评估多代理争辩框架时的“刻意选择”时刻。
   来源: https://alicelabs.ai/en/insights/best-ai-agent-frameworks-2026

## 需求信号
- 7 天趋势:不可用(google_trends 在此运行中返回了暂时的上游错误 —
  在下一个调度中重试)

## 本周变化
- Alice Labs 添加 Claude Agent SDK 作为新进入者,排名第 2,取代 CrewAI
  排名第 3 — 这是我们见过的第一个将 Anthropic 官方 SDK 提升至
  多代理通用者之上的排名。
- AutoGen / AG2 分叉状态在三篇文章中提及 2 次,较上周的 0 次有所增加。

## 未检索来源
- (无 — alicelabs.ai SPA 要求使用 browser_* 回退路径;已恢复)

结构遵循提示;值是经过验证的工具链在简报运行当天实际返回的结果。一些基于实况运行的诚实观察:

  • scrape_markdown很好地清理了大多数出版商页面。 在第一次尝试中,Towards AI 和 GuruSup 返回了干净的 Markdown 正文。高度 JavaScript 渲染的单页应用(在此运行中,alicelabs.ai 是一个 Webflow / Vite SPA)则返回了渲染后的 HTML 外壳 — 代理通过 browser_createbrowser_gotobrowser_get_text 链完成恢复,返回了包括排名列表、关键要点、FAQ 和 2026年5月的更新时间戳在内的完整结构化页面快照。
  • google_trends 反映兴趣而非量 — 有时呈现短暂性。 在验证运行中,上游 Trends 调用返回了 load failed 错误;该提示通过报告缺口而不是替换合成数据来处理这一情况。正确的重试策略是下一个计划运行,而不是在同一代理回合内部进行热重试。
  • 每个来源的新鲜度各不相同。 一些出版商在更新文章时会补充时间戳;如果“新鲜度”绝对重要,请交叉检查文章正文中的发布日期,而不是SERP摘要。(在此运行中的 Alice Labs 页面显示了2026年4月的发布日期和2026年5月的更新日期。)
  • 反机器人插页和 SPA 外壳是正常现象,而非例外。 在任何涉及大规模商业网站的提示中,都要为 browser_* 回退预留预算;验证运行在三分之一的 URL 中遇到了一个,恢复过程没有事件发生。

结论:一个读取实时网络的代理

ZeroClaw + Scrapeless 集成将操作员运行的步骤减少到四个:安装 ZeroClaw,在 ~/.zeroclaw/config.toml 中注册 Scrapeless MCP 服务器,将 OpenClaw 技能放入 ~/.zeroclaw/workspace/skills/,并通过 zeroclaw skills list 和在 zeroclaw agent 中的工具列表提示进行验证。之后,每一个接触网络的代理回合 — 研究、监控、潜在客户生成、RAG 摄取、AI 搜索可见性跟踪 — 都通过云浏览器、住宅代理和一个 API 密钥背后的 SERP API。

对于其他客户端中的相同 Scrapeless 原语,MCP 服务器教程 涉及 Claude Desktop / Cursor / Codex CLI,Hermes 集成帖子 涉及直接 CDP,LangChain 集成帖子 涉及 Python 代理。它们之间的模式是相同的:固定一个住宅区域,在多步骤流程中保持会话活跃,将反机器人插页视为重试案例而非例外,并让代理组合 google_searchscrape_markdownbrowser_*,以满足提示的实际要求。


准备构建您的 AI 驱动数据管道了吗?

加入我们的社区以领取免费计划,并与在 Scrapeless 上构建本地代理管道的开发者联系:Discord · Telegram

app.scrapeless.com 注册以获得免费的 MCP 运行时,并将上述模式适应于 ZeroClaw 代理已经运行的任何工作流。


常见问题解答

Q1. Scrapeless MCP 服务器在 Windows 上工作,还是仅在 Linux / macOS 上?
MCP 服务器是一个 Node.js 包 — 它可以在任何运行 Node 18+ 的地方运行,包括 Windows。ZeroClaw 的安装程序假设使用 POSIX shell,因此在 Windows 上最顺畅的路径是 WSL2。HTTP 传输变体(将 ZeroClaw 指向 https://api.scrapeless.com/mcp)完全消除了本地 npx 依赖,并且对于托管的 ZeroClaw 部署是最简单的选择。

Q2. Stdio 还是可流式 HTTP — 哪种传输是正确的默认选择?
对于本地运行 ZeroClaw 的工作站,使用 stdio。生命周期很简单:ZeroClaw 在代理启动时生成 npx -y scrapeless-mcp-server,在代理停止时终止它。对于在 VPS 上或在容器中运行的 ZeroClaw,使用 HTTP。Scrapeless 托管的端点消除了将 npx 和 Node 打包到运行时镜像中的需求。

Q3. 抓取公共网络数据是否合法?
通常是合法的,当数据是公开可见的,并且工作流遵循每个网站的服务条款和适用的法律管辖区。法律立场因国家、网站和使用案例(研究、商业转售、训练数据)而异。在针对目标网站扩大工作流之前,请审查其服务条款,并咨询法律顾问以应对高容量或受监管的使用案例。

Q4. MCP 服务器和 OpenClaw 技能是否重叠?
它们是互补的。MCP 服务器给代理提供 工具 — 具体的、可调用的接口(google_searchscrape_markdownbrowser_*)。技能则赋予代理 知识 — Scrapeless 通用抓取 API 的行为,何时回退到 JS 渲染,应该请求何种响应类型,如何将 CAPTCHA 解决与国家选择链式连接。一起安装,代理同时拥有这两者。

Q5. 当目标页面返回反机器人中介页面时会发生什么?
对于大多数页面的 scrape_markdown,云浏览器透明地解决挑战。对于仍然返回中介页面的页面,标准的回退是 browser_createbrowser_gotobrowser_wait_for (一个已知的后挑战选择器) → browser_get_text。在任何接触商业网站的提示中为此回退留出预算;上面的提示示例展示了其形态。

Q6. ZeroClaw 的自主模式如何与 MCP 工具调用互动?
supervised(默认)模式下,代理在首次调用每个 MCP 工具之前会提示一次。操作员可以授予一次性批准(Y)或记住此工具批准(A)。在 yolo 模式下,代理在没有提示的情况下调用工具;该模式仅适用于受信任的开发盒子。

Q7. 代理可以在单个回合中将 Scrapeless 调用组合成多步骤流程吗?
可以 — 这是设计的要点。单个代理回合通常链式连接 google_search(定位)、scrape_markdown(从规范 URL 提取)和 browser_*(回退到互动或反机器人保护页面)。ZeroClaw 将中间的工具调用流入同一对话上下文中。

Q8. Scrapeless API 密钥存放在哪里?
对于 MCP 路径,在 ~/.zeroclaw/config.toml 中的 env.SCRAPELESS_KEY(或在可流式传输的 HTTP x-api-token 头中)。对于技能路径,在每个技能目录中的 .env 文件里作为 X_API_TOKEN。这两条路径是独立的;轮换密钥意味着需要更新两个位置。

Q9. ZeroClaw SOP 可以按计划触发相同的提示吗?
可以。使用 cron 触发器注册一个 SOP,该触发器运行操作员会粘贴到 zeroclaw agent --message "..." 中的相同提示。将 SOP 绑定到一个通道适配器(Discord、Telegram、电子邮件),简报将自动发送。supervised 模式下的 SOP 仍然需要在批准后再进行中等风险的工具调用;对于无人值守的定期运行,SOP 需要在更宽松的自主模式下配置或预先授予工具权限。

Q10. 关于 Scrapeless 的其他产品 — 抓取浏览器、通用抓取 API、SERP API 呢?
MCP 服务器将最常见的云浏览器、SERP 和抓取基础组件打包成一个 MCP 接口。对于需要直接使用完整抓取浏览器基础组件集的工作流(CDP、自定义指纹、以 session_ttl 粒度的会话持久性),请将 抓取浏览器 CDP 端点 接入 ZeroClaw 的内置 browser 工具中。两种方法是组合的,它们并不冲突。

在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。

最受欢迎的文章

目录