🎯 一款可定制、具备反检测功能的云浏览器,由自主研发的 Chromium驱动,专为网页爬虫AI 代理设计。👉立即试用
返回博客

五个用于网络抓取的AI agent用例:YouTube、地图、亚马逊、预订、Instagram,使用Scrapeless MCP

Michael Lee
Michael Lee

Expert Network Defense Engineer

21-May-2026

关键要点:

  • 一个提示生成一个实时云浏览器会话。 Scrapeless MCP 服务器为任何 AI 代理提供一个反检测的 Scrapeless Scraping Browser,因此单个自然语言提示生成一个页面并返回结构化 JSON — 无需浏览演员目录,无需连接调度程序。
  • 今天可以运行的五个用例。 YouTube 创作者研究、酒店评论情感分析、Google Maps 潜在客户生成、跨市场价格研究和 Instagram 发现都在同一个 21 工具的 MCP 表面上运行。
  • 基于真实的 Scrapeless 抓取器。 以下每种输出格式都反映了开放 Scrapeless 抓取器库中的一个工作抓取器(YouTube、Booking.com、Google Maps、Amazon/eBay/AliExpress、Instagram) — 模式是规范性的,字段值是示例性的。
  • 内置 195+ 国家/地区的住宅代理。 云浏览器通过住宅 IP 路由每个会话并渲染 JavaScript,因此地理范围页面和懒加载内容全部返回。
  • 在任何 MCP 客户端中均可使用。 Claude Desktop、Cursor、Codex CLI、Gemini CLI 和其他支持 MCP 的代理通过 stdio 或 HTTP 连接。
  • 免费开始。 新的 Scrapeless 账户包括免费的 Scraping Browser 运行时间 — 在 Scrapeless 官方网站 注册。

TL;DR:五个 MCP 用例一览

用例 使用的 MCP 工具 Scrapeless 抓取器 输出
YouTube 创作者研究 google_search, browser_create/goto/wait_for/get_html/close youtube-scraper 视频 + 渠道 JSON
酒店评论情感分析 browser_*, scrape_markdown bookingcom-scraper, tripadvisor-scraper 评论语料库 JSON
Google Maps 潜在客户生成 browser_* (滚动, 点击) google-maps-scraper 地点列表 JSON
跨市场竞争对手研究 browser_*, google_trends amazon-scraper / ebay-scraper / aliexpress-scraper 产品比较 JSON
Instagram 发现 browser_* (滚动) instagram-scraper 用户档案 + 帖子 JSON

什么是 Scrapeless MCP 服务器?

Scrapeless MCP 服务器 是一个模型上下文协议服务器,将 Scrapeless 抓取浏览器 — 一个由自开发的 Chromium 驱动、在 195 个国家/地区提供住宅代理的反检测云浏览器 — 集成到任何支持 MCP 的 AI 代理中。代理无需编写抓取代码,只需调用工具。

它提供 21 种工具,分为三个组:

  • 浏览器原语browser_create, browser_goto, browser_go_back, browser_go_forward, browser_click, browser_type, browser_press_key, browser_wait, browser_wait_for, browser_screenshot, browser_snapshot, browser_get_html, browser_get_text, browser_scroll, browser_scroll_to, browser_close
  • 搜索和趋势google_search(由 gl/hl 参数化)和 google_trends
  • 无状态抓取scrape_html, scrape_markdown, scrape_screenshot

提供两种传输方式:stdio(客户端启动 npx -y scrapeless-mcp-server)和 HTTP(将远程代理指向 https://api.scrapeless.com/mcp 并带上 x-api-token 头)。完整的配置在 文档 中。

这些用例如何工作

以下每个用例遵循相同的模式:发现,然后提取。 代理打开一个云浏览器会话,导航到页面,等待内容渲染,并提取结构化字段 — 所有这些都来自单个提示。没有每个站点的演员可以从目录中选择,也没有单独的调度程序;同样的 21 种工具驱动每个站点,你只需通过更改提示来改变目标。

一次安装,到处重用

使用短配置块将服务器添加到任何 MCP 客户端:

jsonc Copy
{
  "mcpServers": {
    "scrapeless": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": { "SCRAPELESS_KEY": "your_api_token_here" }
    }
  }
}

Scrapeless 官方网站 上的免费计划中获取你的 API 密钥。对于可通过 HTTP 流式传输的代理,请指向 https://api.scrapeless.com/mcp 并使用 x-api-token 头。完整的服务器设置、传输方式和示例案例在伴随指南中: Scrapeless MCP 服务器正式上线


1. YouTube 潜在客户与创作者研究

在任何细分市场中寻找创作者并提取结构化视频和频道元数据 — 准备粘贴到 CRM 或外联电子表格中。

你将使用的工具

  • google_search — 在无需手动浏览的情况下,展示与细分市场相关的视频或频道页面
  • browser_create — 启动一个 Scrapeless Scraping Browser 云浏览器会话
  • browser_goto — 导航到 YouTube 视频或频道 URL
  • browser_wait_for — 等待页面的动态内容加载完毕
  • browser_get_html — 获取完全渲染的 HTML 以供后续解析
  • browser_close — 结束会话

参考实现:youtube-scraper/browser/mcp/

示例提示

使用 Scrapeless MCP 服务器查找过去六个月内涵盖 AI 生产力工具的前 10 名 YouTube 创作者。对于每个视频,收集标题、观看次数、点赞次数和发布日期。对于每个频道,收集名称、句柄、订阅者数量和频道 URL。将结果以 JSON 数组的形式返回,方便粘贴到 Google 表格中进行外联优先级排序。

返回的内容

json Copy
// 模式是规范性的;字段值为示例。
[
  {
    "video": {
      "videoId": "dQw4w9WgXcQ",
      "title": "Rick Astley - Never Gonna Give You Up (官方视频) (4K 重制)",
      "publishingDate": "2009年10月24日",
      "lengthSeconds": 213,
      "stats": { "viewCount": 1771873274, "likeCount": 19000000, "commentCount": 2400000 }
    },
    "channel": {
      "name": "Rick Astley",
      "id": "@RickAstleyYT",
      "channelUrl": "https://www.youtube.com/@RickAstleyYT",
      "subscriberCount": "450 万订阅者",
      "verified": false
    }
  }
]

没有需要配置的演员,没有需要连接的调度程序,也没有需要维护的代理池——一个提示触发一个通过 195 多个国家的住宅代理路由的单一云浏览器会话,结构化的 JSON 直接进入你的代理的上下文。调换任何小众关键词,同样的提示无需代码更改即可重复使用,使创作者潜在客户的开发成为一个可重复的单行操作。

2. 酒店评论情感分析

使用 Scrapeless MCP 服务器提取酒店客人的评论,以便 LLM 按主题打分情感——员工、清洁、位置、房间和餐饮。

你将使用的工具

  • browser_create — 使用 195 多个国家的住宅代理打开云浏览器会话
  • browser_goto — 导航到酒店的评论页面
  • browser_wait_for — 等待评论卡片渲染
  • browser_scroll — 加载下方的更多评论
  • browser_get_html — 捕获渲染的评论 HTML
  • scrape_markdown — 将 HTML 转换为清晰的、适合 LLM 的文本
  • browser_close — 完成后释放会话

参考实现:bookingcom-scraper/browser/mcp/ · 替代来源:tripadvisor-scraper

示例提示

使用 Scrapeless MCP 服务器打开 Scrapeless Scraping Browser 会话,导航到 [酒店 URL] 的 Booking.com 评论页面,浏览至少两页客人评论,并返回原始评论对象——包括 reviewScoretextDetails.positiveTexttextDetails.negativeTextguestDetails.guestTypeTranslationbookingDetails.roomType.name。返回一个 JSON 数组,每个评论一个对象。

返回的内容

json Copy
// 模式是规范性的;字段值为示例。
[
  {
    "reviewScore": 8,
    "guestDetails": { "username": "Theresa", "guestTypeTranslation": "单人旅客", "countryName": "澳大利亚" },
    "bookingDetails": { "roomType": { "name": "双人间" }, "numNights": 4, "customerType": "单人旅客" },
    "textDetails": { "positiveText": "位置很好。靠近交通、餐饮和超市。", "negativeText": null }
  },
  {
    "reviewScore": 7,
    "guestDetails": { "username": "Koreli", "guestTypeTranslation": "情侣", "countryName": "希腊" },
    "bookingDetails": { "roomType": { "name": "双人间" }, "numNights": 3, "customerType": "情侣" },
    "textDetails": { "positiveText": "位置很好,环境宁静,靠近公交站。", "negativeText": "房间对于两个人来说太小了。" }
  }
]

Scrapeless Scraping Browser 处理 JavaScript 渲染和分页,因此你的代理接收结构化的评论对象——将它们直接传送到任何 LLM,以便跨员工、清洁、位置、房间和餐饮进行情感评分。将目标 URL 调换,以便使用伴随的抓取程序针对 TripAdvisor 执行相同的工作流。195 多个国家的住宅代理和会话管理由云浏览器处理,因此你的代码可以专注于分析。

免费计划 上获取你的 API 密钥,注册并加入社区以索取:Scrapeless 官方网站

3. Google Maps 本地潜在客户生成

要求一个AI代理在目标城市扫描一个商业类别,点击每个列表以查看详细页面字段,并返回合格的潜在客户列表——筛选没有网站的企业。

您将使用的工具

  • browser_createbrowser_gotobrowser_wait_forbrowser_scroll
  • browser_clickbrowser_get_htmlbrowser_close

参考实现:google-maps-scraper/browser/mcp/

示例提示

使用Scrapeless MCP服务器在德克萨斯州奥斯丁搜索“咖啡店”。对于每个结果,点击详细面板,提取名称、地址、电话、网站、评级和评论数量。仅返回website为空的记录——这些是可能需要网络存在帮助的潜在客户。

您得到的结果

json Copy
// 模式是规范的;字段值是示例。
[
  {
    "name": "Terrible Love",
    "category": "Coffee shop",
    "address": "3908 Avenue B",
    "phone": null,
    "website": null,
    "rating": 4.9,
    "review_count": null,
    "url": "https://www.google.com/maps/place/Terrible+Love/..."
  },
  {
    "name": "Flora Coffee & Culture",
    "category": "Coffee shop",
    "address": "3300 W Anderson Ln. Suite 300",
    "phone": null,
    "website": null,
    "rating": 4.9,
    "review_count": null,
    "url": "https://www.google.com/maps/place/Flora+Coffee+%26+Culture/..."
  }
]

Scrapeless Scraping Browser处理地图中JavaScript重渲染在云浏览器中,而无需您管理任何基础设施。195多个国家的住宅代理让您可以将结果范围缩小到任何本地市场。一个警告:phonewebsitereview_count即使在详细面板上也可能为null——地图并不总是显示它们——因此将null视为“未列出”而不是“确认缺失”,并为高价值潜在客户计划二次验证步骤。

4. 跨市场竞争者研究

在一次代理运行中通过亚马逊、eBay和AliExpress拉取相同的产品关键词,以映射价格差异、评级和卖家定位。

您将使用的工具

  • browser_create — 打开Scrapeless Scraping Browser云浏览器会话
  • browser_goto — 导航到每个市场的搜索或产品网址
  • browser_wait_for — 等待动态列表数据渲染
  • browser_get_html — 捕获每个页面的完全渲染HTML
  • google_trends — 验证关键词需求并比较市场之间的区域搜索兴趣
  • browser_close — 当所有三页完成时干净地结束会话

参考实现:amazon-scraperebay-scraperaliexpress-scraper

示例提示

使用Scrapeless MCP服务器在亚马逊、eBay和AliExpress上搜索“PlayStation 5主机”。对于每个市场,收集产品名称、价格、星级评分、评论数量、卖家和列表网址。然后使用google_trends比较美国、英国和德国对相同关键词的搜索兴趣。返回一个统一的JSON数组——每个市场一个对象——以一目了然的方式映射价格差异和评级分布。

您得到的结果

json Copy
// 模式是规范的;字段值是示例。
[
  {
    "marketplace": "amazon",
    "name": "PlayStation 5 Console (PS5)",
    "stars": "4.8 out of 5 stars",
    "rating_count": "9,180 global ratings",
    "asin": "B0BCNKKZ91"
  },
  {
    "marketplace": "ebay",
    "name": "Sony PlayStation 5 Console Disc Edition – 1TB",
    "price_original": "US $499.00",
    "seller_name": "electronics_depot",
    "url": "https://www.ebay.com/itm/177439887865"
  },
  {
    "marketplace": "aliexpress",
    "info": {
      "name": "PlayStation 5 Console Game Host PS5 Disc Version",
      "rate": 4.8,
      "reviews": 312,
      "link": "https://www.aliexpress.com/item/3256807619226115.html"
    },
    "pricing": { "price": 389.99 }
  }
]

每个市场展示的模式不同——亚马逊以asin为键,使用starsrating_count,eBay显示price_originalseller_name,而AliExpress将字段嵌套在infopricing中——Scrapeless Scraping Browser处理所有三者之间的渲染差异,而您的代理则对其进行规范化。住宅代理在195多个国家让您能够针对特定地区的店铺,而google_trends则添加了市场无法原生暴露的需求信号。结果以结构化JSON的形式呈现在您的代理上下文中,随时可以用于电子表格透视或定价仪表板。

5. Instagram个人资料和标签发现

将一个AI代理指向一个公共Instagram个人资料或标签页面,并获得结构化的影响者发现信号——关注者数量、帖子数量、参与度和最新公开帖子。

您将使用的工具

  • 浏览器创建, 浏览器访问, 浏览器等待
  • 浏览器滚动, 浏览器获取HTML, 浏览器关闭
    五个用例,一个工具集:每个用例都减少为一个单一的提示,打开一个云浏览器会话,渲染页面,并返回结构化的JSON,供您的代理使用。这个模式总是先发现,然后提取——将一个代理国家设定在靠近目标受众的位置,确保会话工作在一个提示内,并将缺失的字段视为可为空。先从离您目标最近的用例开始,然后为下一个用例重用相同的安装。有关更深入的逐步构建,请参见Scrapeless MCP服务器概述,并在定价页面上比较计划。

准备构建您的AI驱动数据管道了吗?

加入我们的社区以申请免费计划,并与构建基于MCP的提取管道的开发者联系:Discord · Telegram

Scrapeless官方网站注册以获取免费的Scraping Browser运行时,并将上述提示适应于您的管道所需的网站、查询和地区。

在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。

最受欢迎的文章

目录