五个用于网络抓取的AI agent用例:YouTube、地图、亚马逊、预订、Instagram,使用Scrapeless MCP
Expert Network Defense Engineer
关键要点:
- 一个提示生成一个实时云浏览器会话。 Scrapeless MCP 服务器为任何 AI 代理提供一个反检测的 Scrapeless Scraping Browser,因此单个自然语言提示生成一个页面并返回结构化 JSON — 无需浏览演员目录,无需连接调度程序。
- 今天可以运行的五个用例。 YouTube 创作者研究、酒店评论情感分析、Google Maps 潜在客户生成、跨市场价格研究和 Instagram 发现都在同一个 21 工具的 MCP 表面上运行。
- 基于真实的 Scrapeless 抓取器。 以下每种输出格式都反映了开放 Scrapeless 抓取器库中的一个工作抓取器(YouTube、Booking.com、Google Maps、Amazon/eBay/AliExpress、Instagram) — 模式是规范性的,字段值是示例性的。
- 内置 195+ 国家/地区的住宅代理。 云浏览器通过住宅 IP 路由每个会话并渲染 JavaScript,因此地理范围页面和懒加载内容全部返回。
- 在任何 MCP 客户端中均可使用。 Claude Desktop、Cursor、Codex CLI、Gemini CLI 和其他支持 MCP 的代理通过 stdio 或 HTTP 连接。
- 免费开始。 新的 Scrapeless 账户包括免费的 Scraping Browser 运行时间 — 在 Scrapeless 官方网站 注册。
TL;DR:五个 MCP 用例一览
| 用例 | 使用的 MCP 工具 | Scrapeless 抓取器 | 输出 |
|---|---|---|---|
| YouTube 创作者研究 | google_search, browser_create/goto/wait_for/get_html/close |
youtube-scraper | 视频 + 渠道 JSON |
| 酒店评论情感分析 | browser_*, scrape_markdown |
bookingcom-scraper, tripadvisor-scraper | 评论语料库 JSON |
| Google Maps 潜在客户生成 | browser_* (滚动, 点击) |
google-maps-scraper | 地点列表 JSON |
| 跨市场竞争对手研究 | browser_*, google_trends |
amazon-scraper / ebay-scraper / aliexpress-scraper | 产品比较 JSON |
| Instagram 发现 | browser_* (滚动) |
instagram-scraper | 用户档案 + 帖子 JSON |
什么是 Scrapeless MCP 服务器?
Scrapeless MCP 服务器 是一个模型上下文协议服务器,将 Scrapeless 抓取浏览器 — 一个由自开发的 Chromium 驱动、在 195 个国家/地区提供住宅代理的反检测云浏览器 — 集成到任何支持 MCP 的 AI 代理中。代理无需编写抓取代码,只需调用工具。
它提供 21 种工具,分为三个组:
- 浏览器原语 —
browser_create,browser_goto,browser_go_back,browser_go_forward,browser_click,browser_type,browser_press_key,browser_wait,browser_wait_for,browser_screenshot,browser_snapshot,browser_get_html,browser_get_text,browser_scroll,browser_scroll_to,browser_close。 - 搜索和趋势 —
google_search(由gl/hl参数化)和google_trends。 - 无状态抓取 —
scrape_html,scrape_markdown,scrape_screenshot。
提供两种传输方式:stdio(客户端启动 npx -y scrapeless-mcp-server)和 HTTP(将远程代理指向 https://api.scrapeless.com/mcp 并带上 x-api-token 头)。完整的配置在 文档 中。
这些用例如何工作
以下每个用例遵循相同的模式:发现,然后提取。 代理打开一个云浏览器会话,导航到页面,等待内容渲染,并提取结构化字段 — 所有这些都来自单个提示。没有每个站点的演员可以从目录中选择,也没有单独的调度程序;同样的 21 种工具驱动每个站点,你只需通过更改提示来改变目标。
一次安装,到处重用
使用短配置块将服务器添加到任何 MCP 客户端:
jsonc
{
"mcpServers": {
"scrapeless": {
"command": "npx",
"args": ["-y", "scrapeless-mcp-server"],
"env": { "SCRAPELESS_KEY": "your_api_token_here" }
}
}
}
在 Scrapeless 官方网站 上的免费计划中获取你的 API 密钥。对于可通过 HTTP 流式传输的代理,请指向 https://api.scrapeless.com/mcp 并使用 x-api-token 头。完整的服务器设置、传输方式和示例案例在伴随指南中: Scrapeless MCP 服务器正式上线。
1. YouTube 潜在客户与创作者研究
在任何细分市场中寻找创作者并提取结构化视频和频道元数据 — 准备粘贴到 CRM 或外联电子表格中。
你将使用的工具
google_search— 在无需手动浏览的情况下,展示与细分市场相关的视频或频道页面browser_create— 启动一个 Scrapeless Scraping Browser 云浏览器会话browser_goto— 导航到 YouTube 视频或频道 URLbrowser_wait_for— 等待页面的动态内容加载完毕browser_get_html— 获取完全渲染的 HTML 以供后续解析browser_close— 结束会话
参考实现:youtube-scraper/browser/mcp/
示例提示
使用 Scrapeless MCP 服务器查找过去六个月内涵盖 AI 生产力工具的前 10 名 YouTube 创作者。对于每个视频,收集标题、观看次数、点赞次数和发布日期。对于每个频道,收集名称、句柄、订阅者数量和频道 URL。将结果以 JSON 数组的形式返回,方便粘贴到 Google 表格中进行外联优先级排序。
返回的内容
json
// 模式是规范性的;字段值为示例。
[
{
"video": {
"videoId": "dQw4w9WgXcQ",
"title": "Rick Astley - Never Gonna Give You Up (官方视频) (4K 重制)",
"publishingDate": "2009年10月24日",
"lengthSeconds": 213,
"stats": { "viewCount": 1771873274, "likeCount": 19000000, "commentCount": 2400000 }
},
"channel": {
"name": "Rick Astley",
"id": "@RickAstleyYT",
"channelUrl": "https://www.youtube.com/@RickAstleyYT",
"subscriberCount": "450 万订阅者",
"verified": false
}
}
]
没有需要配置的演员,没有需要连接的调度程序,也没有需要维护的代理池——一个提示触发一个通过 195 多个国家的住宅代理路由的单一云浏览器会话,结构化的 JSON 直接进入你的代理的上下文。调换任何小众关键词,同样的提示无需代码更改即可重复使用,使创作者潜在客户的开发成为一个可重复的单行操作。
2. 酒店评论情感分析
使用 Scrapeless MCP 服务器提取酒店客人的评论,以便 LLM 按主题打分情感——员工、清洁、位置、房间和餐饮。
你将使用的工具
browser_create— 使用 195 多个国家的住宅代理打开云浏览器会话browser_goto— 导航到酒店的评论页面browser_wait_for— 等待评论卡片渲染browser_scroll— 加载下方的更多评论browser_get_html— 捕获渲染的评论 HTMLscrape_markdown— 将 HTML 转换为清晰的、适合 LLM 的文本browser_close— 完成后释放会话
参考实现:bookingcom-scraper/browser/mcp/ · 替代来源:tripadvisor-scraper
示例提示
使用 Scrapeless MCP 服务器打开 Scrapeless Scraping Browser 会话,导航到 [酒店 URL] 的 Booking.com 评论页面,浏览至少两页客人评论,并返回原始评论对象——包括
reviewScore、textDetails.positiveText、textDetails.negativeText、guestDetails.guestTypeTranslation和bookingDetails.roomType.name。返回一个 JSON 数组,每个评论一个对象。
返回的内容
json
// 模式是规范性的;字段值为示例。
[
{
"reviewScore": 8,
"guestDetails": { "username": "Theresa", "guestTypeTranslation": "单人旅客", "countryName": "澳大利亚" },
"bookingDetails": { "roomType": { "name": "双人间" }, "numNights": 4, "customerType": "单人旅客" },
"textDetails": { "positiveText": "位置很好。靠近交通、餐饮和超市。", "negativeText": null }
},
{
"reviewScore": 7,
"guestDetails": { "username": "Koreli", "guestTypeTranslation": "情侣", "countryName": "希腊" },
"bookingDetails": { "roomType": { "name": "双人间" }, "numNights": 3, "customerType": "情侣" },
"textDetails": { "positiveText": "位置很好,环境宁静,靠近公交站。", "negativeText": "房间对于两个人来说太小了。" }
}
]
Scrapeless Scraping Browser 处理 JavaScript 渲染和分页,因此你的代理接收结构化的评论对象——将它们直接传送到任何 LLM,以便跨员工、清洁、位置、房间和餐饮进行情感评分。将目标 URL 调换,以便使用伴随的抓取程序针对 TripAdvisor 执行相同的工作流。195 多个国家的住宅代理和会话管理由云浏览器处理,因此你的代码可以专注于分析。
在 免费计划 上获取你的 API 密钥,注册并加入社区以索取:Scrapeless 官方网站
3. Google Maps 本地潜在客户生成
要求一个AI代理在目标城市扫描一个商业类别,点击每个列表以查看详细页面字段,并返回合格的潜在客户列表——筛选没有网站的企业。
您将使用的工具
browser_create,browser_goto,browser_wait_for,browser_scrollbrowser_click,browser_get_html,browser_close
参考实现:google-maps-scraper/browser/mcp/
示例提示
使用Scrapeless MCP服务器在德克萨斯州奥斯丁搜索“咖啡店”。对于每个结果,点击详细面板,提取名称、地址、电话、网站、评级和评论数量。仅返回
website为空的记录——这些是可能需要网络存在帮助的潜在客户。
您得到的结果
json
// 模式是规范的;字段值是示例。
[
{
"name": "Terrible Love",
"category": "Coffee shop",
"address": "3908 Avenue B",
"phone": null,
"website": null,
"rating": 4.9,
"review_count": null,
"url": "https://www.google.com/maps/place/Terrible+Love/..."
},
{
"name": "Flora Coffee & Culture",
"category": "Coffee shop",
"address": "3300 W Anderson Ln. Suite 300",
"phone": null,
"website": null,
"rating": 4.9,
"review_count": null,
"url": "https://www.google.com/maps/place/Flora+Coffee+%26+Culture/..."
}
]
Scrapeless Scraping Browser处理地图中JavaScript重渲染在云浏览器中,而无需您管理任何基础设施。195多个国家的住宅代理让您可以将结果范围缩小到任何本地市场。一个警告:phone,website和review_count即使在详细面板上也可能为null——地图并不总是显示它们——因此将null视为“未列出”而不是“确认缺失”,并为高价值潜在客户计划二次验证步骤。
4. 跨市场竞争者研究
在一次代理运行中通过亚马逊、eBay和AliExpress拉取相同的产品关键词,以映射价格差异、评级和卖家定位。
您将使用的工具
browser_create— 打开Scrapeless Scraping Browser云浏览器会话browser_goto— 导航到每个市场的搜索或产品网址browser_wait_for— 等待动态列表数据渲染browser_get_html— 捕获每个页面的完全渲染HTMLgoogle_trends— 验证关键词需求并比较市场之间的区域搜索兴趣browser_close— 当所有三页完成时干净地结束会话
参考实现:amazon-scraper,ebay-scraper,aliexpress-scraper
示例提示
使用Scrapeless MCP服务器在亚马逊、eBay和AliExpress上搜索“PlayStation 5主机”。对于每个市场,收集产品名称、价格、星级评分、评论数量、卖家和列表网址。然后使用
google_trends比较美国、英国和德国对相同关键词的搜索兴趣。返回一个统一的JSON数组——每个市场一个对象——以一目了然的方式映射价格差异和评级分布。
您得到的结果
json
// 模式是规范的;字段值是示例。
[
{
"marketplace": "amazon",
"name": "PlayStation 5 Console (PS5)",
"stars": "4.8 out of 5 stars",
"rating_count": "9,180 global ratings",
"asin": "B0BCNKKZ91"
},
{
"marketplace": "ebay",
"name": "Sony PlayStation 5 Console Disc Edition – 1TB",
"price_original": "US $499.00",
"seller_name": "electronics_depot",
"url": "https://www.ebay.com/itm/177439887865"
},
{
"marketplace": "aliexpress",
"info": {
"name": "PlayStation 5 Console Game Host PS5 Disc Version",
"rate": 4.8,
"reviews": 312,
"link": "https://www.aliexpress.com/item/3256807619226115.html"
},
"pricing": { "price": 389.99 }
}
]
每个市场展示的模式不同——亚马逊以asin为键,使用stars和rating_count,eBay显示price_original和seller_name,而AliExpress将字段嵌套在info和pricing中——Scrapeless Scraping Browser处理所有三者之间的渲染差异,而您的代理则对其进行规范化。住宅代理在195多个国家让您能够针对特定地区的店铺,而google_trends则添加了市场无法原生暴露的需求信号。结果以结构化JSON的形式呈现在您的代理上下文中,随时可以用于电子表格透视或定价仪表板。
5. Instagram个人资料和标签发现
将一个AI代理指向一个公共Instagram个人资料或标签页面,并获得结构化的影响者发现信号——关注者数量、帖子数量、参与度和最新公开帖子。
您将使用的工具
浏览器创建,浏览器访问,浏览器等待浏览器滚动,浏览器获取HTML,浏览器关闭
五个用例,一个工具集:每个用例都减少为一个单一的提示,打开一个云浏览器会话,渲染页面,并返回结构化的JSON,供您的代理使用。这个模式总是先发现,然后提取——将一个代理国家设定在靠近目标受众的位置,确保会话工作在一个提示内,并将缺失的字段视为可为空。先从离您目标最近的用例开始,然后为下一个用例重用相同的安装。有关更深入的逐步构建,请参见Scrapeless MCP服务器概述,并在定价页面上比较计划。
准备构建您的AI驱动数据管道了吗?
加入我们的社区以申请免费计划,并与构建基于MCP的提取管道的开发者联系:Discord · Telegram。
在Scrapeless官方网站注册以获取免费的Scraping Browser运行时,并将上述提示适应于您的管道所需的网站、查询和地区。
在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。



