如何在 Make 上自动抓取数据？

Alex Johnson

Senior Web Scraping Engineer

25-Jun-2025

我们最近推出了一个官方的Make集成，现在作为公共应用程序可用。本教程将向您展示如何创建一个强大的自动化工作流程，将我们的Google搜索API与Web解锁器结合起来，从搜索结果中提取数据，使用Claude AI处理这些数据，并将其发送到webhook。

我们将构建的内容

在本教程中，我们将创建一个工作流程：

使用集成调度每天自动触发
使用Scrapeless Google搜索API在Google上搜索特定查询
使用迭代器逐个处理每个URL
使用Scrapeless WebUnlocker抓取每个URL以提取内容
使用Anthropic Claude AI分析内容
将处理后的数据发送到webhook（Discord、Slack、数据库等）

先决条件

一个Make.com帐户
一个Scrapeless API密钥（请访问scrapeless.com获取一个）

一个Anthropic Claude API密钥
一个webhook端点（Discord webhook、Zapier、数据库端点等）
对Make.com工作流程的基本理解

完整工作流程概述

您的最终工作流程将如下所示：

Scrapeless Google搜索（带有集成调度）→ 迭代器 → Scrapeless WebUnlocker → Anthropic Claude → HTTP Webhook

第1步：添加带有集成调度的Scrapeless Google搜索

我们将首先添加带有内置调度的Scrapeless Google搜索模块。

在Make.com中创建一个新场景
点击“+”按钮以添加第一个模块
在模块库中搜索“Scrapeless”
选择Scrapeless并选择Search Google操作

配置带有调度的Google搜索

连接设置：

通过输入您的Scrapeless API密钥创建连接
点击“添加”并按照连接设置流程

搜索参数：

搜索查询：输入您的目标查询（例如，“人工智能新闻”）
语言：en（英语）
国家：US（美国）

调度设置：

点击模块上的钟表图标以打开调度
运行场景：选择“定期间隔”
分钟：设置为1440（每日执行）或您优选的间隔
高级调度：如有需要，使用“添加项目”设置特定的时间/天

第2步：使用迭代器处理结果

Google搜索返回一个包含多个URL的数组。我们将使用迭代器逐个处理每个结果。

在Google搜索之后添加一个迭代器模块
配置数组字段以处理搜索结果

迭代器配置：

数组：{{1.result.organic_results}}

这将创建一个循环，单独处理每个搜索结果，从而改善错误处理和单独处理。

第3步：添加Scrapeless WebUnlocker

现在我们将添加WebUnlocker模块以从每个URL抓取内容。

添加另一个Scrapeless模块
选择Scrape URL（WebUnlocker）操作
使用相同的Scrapeless连接

WebUnlocker配置：

连接：使用现有的Scrapeless连接
目标URL：{{2.link}}（映射自迭代器输出）
Js渲染：是
无头：是
国家：全球
Js指令：[{"wait":1000}]（等待页面加载）
阻止：配置以阻止不必要的资源以加快抓取速度

第4步：使用Anthropic Claude进行AI处理

添加Claude AI以分析和总结抓取的内容。

添加一个Anthropic Claude模块
选择进行API调用操作
使用您的Claude API密钥创建一个新连接

Claude配置：

连接：使用您的Anthropic API密钥创建连接
提示：配置以分析抓取的内容
模型：claude-3-sonnet-20240229 / claude-3-opus-20240229 或您选择的模型
最大令牌数：根据您的需求为1000-4000

网址

Copy

/v1/messages

标题 1

键 : Content-Type
值 : application/json

标题 2

键 : anthropic-version
值 : 2023-06-01

示例提示粘贴在主体中：

Copy

{
  "model": "claude-3-sonnet-20240229",
  "max_tokens": 1000,
  "messages": [
    {
      "role": "user",
      "content": "分析此网络内容并用英文提供摘要，包括关键点：\n\n标题：{{14.title}}\n网址：{{14.link}}\n描述：{{14.snippet}}\n内容：{{13.content}}\n\n搜索查询：{{1.result.search_information.query_displayed}}"
    }
  ]
}

别忘了将数字 14 替换为您的模块编号。

第 5 步：Webhook 集成

最后，将处理过的数据发送到您的 webhook 端点。

添加一个 HTTP 模块
配置它以发送 POST 请求到您的 webhook

HTTP 配置：

网址：您的 webhook 端点（Discord，Slack，数据库等）
方法：POST
标头：Content-Type: application/json
主体类型：原始（JSON）

示例 Webhook 负载：

Copy

{
  "embeds": [
    {
      "title": "{{14.title}}",
      "description": "*{{15.body.content[0].text}}*",
      "url": "{{14.link}}",
      "color": 3447003,
      "footer": {
        "text": "分析完成"
      }
    }
  ]
}

运行结果

模块参考和数据流

模块间的数据流：

模块 1（Scrapeless Google Search）：返回 result.organic_results[]
模块 14（迭代器）：处理每个结果，输出单个项目
模块 13（WebUnlocker）：抓取 {{14.link}}，返回内容
模块 15（Claude AI）：分析 {{13.content}}，返回摘要
模块 16（HTTP Webhook）：发送最终结构化数据

关键映射：

迭代器数组：{{1.result.organic_results}}
WebUnlocker 网址：{{14.link}}
Claude 内容：{{13.content}}
Webhook 数据：所有前面模块的组合

测试您的工作流程

运行一次 来测试完整场景
检查每个模块：

Google 搜索返回有机结果
迭代器单独处理每个结果
WebUnlocker 成功抓取内容
Claude 提供有意义的分析
Webhook 接收结构化数据

验证数据质量 在您的 webhook 目标
检查调度 - 确保按您的优选间隔运行

高级配置提示

错误处理

在每个模块后添加 错误处理 路由
使用 过滤器 跳过无效的网址或空内容
设置重试逻辑以应对临时故障

此工作流程的好处

完全自动化：无需人工干预，每天运行
AI 增强：内容自动分析和总结
灵活输出：Webhook 可与任何系统集成
可扩展：高效处理多个网址
质量控制：多重过滤和验证步骤
实时通知：立即交付至您的优选平台

使用案例

非常适用于：

内容监控：跟踪品牌或竞争对手的提及
新闻聚合：自动生成特定主题的新闻摘要
市场研究：监控行业趋势和动态
潜在客户生成：查找和分析潜在商机
SEO 监控：跟踪目标关键字的搜索结果变化
研究自动化：收集和总结学术或行业内容

结论

此自动化工作流程结合了 Scrapeless 的 Google 搜索和 WebUnlocker 的强大功能，以及 Claude AI 的分析能力，所有这些都通过 Make 的可视化界面进行编排。最终结果是一个智能内容发现系统，能够自动运行并通过 webhook 将丰富、经过分析的数据直接交付给您首选的平台。

该工作流程将按您的日程运行，自动发现、抓取、分析并提供相关内容洞察，完全无需人工干预。

是时候在 Make 使用 Scrapeless 构建您的第一个 AI 代理！

在Scrapeless，我们仅访问公开可用的数据，并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用，不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证，并免除所有责任。在进行任何抓取活动之前，请咨询您的法律顾问，并审查目标网站的服务条款或获取必要的许可。