如何使用Scrapeless和Google Sheets构建自动化求职代理人

Emily Chen

Advanced Data Extraction Specialist

04-Jul-2025

保持最新的职位列表对求职者、招聘人员和科技爱好者至关重要。与其手动检查网站，您可以自动化整个过程——定期抓取职位网站并将结果保存到 Google Sheets 中以便于跟踪和分享。

本指南将向您展示如何使用 Scrapeless、n8n 和 Google Sheets 构建一个自动化的职位寻找代理。您将创建一个工作流，每6小时从 Y Combinator Jobs 页面抓取职位列表，提取结构化数据，并将其存储在电子表格中。

先决条件

在开始之前，请确保您具备以下条件：

n8n：一个无代码自动化平台（自托管或云端）。
Scrapeless API：从 Scrapeless 获取您的 API 密钥。
1. 登录 Scrapeless 仪表板。
2. 然后单击左侧的“设置” -> 选择“API 密钥管理” -> 单击“创建 API 密钥”。最后，单击您创建的 API 密钥以复制。

Google Sheets 帐户：用于保存和查看职位数据。
目标网站：此示例使用 Y Combinator Jobs 页面。

如何使用 Scrapeless 和 Google Sheets 构建自动化的职位寻找代理

1. 调度触发器：每 6 小时运行一次

节点类型：调度触发器

设置：

时间间隔字段：hours
时间间隔值：6

该节点确保您的工作流每6小时自动运行，无需手动输入。

2. Scrapeless 爬虫：抓取职位列表

节点类型：Scrapeless 节点

设置：

资源：crawler
操作：crawl
URL：https://www.ycombinator.com/jobs
限制爬取页面数：2
凭证：您的 Scrapeless API 密钥

输出：包含丰富职位数据的 Markdown 格式对象数组。

3. 提取 Markdown 内容

节点类型：JavaScript 代码节点

目的：从原始抓取结果中仅提取 markdown 字段。

Copy

const raw = items[0].json;
const output = raw.map(obj => ({
  json: {
    markdown: obj.markdown,
  }
}));
return output;

4. 解析 Markdown：提取简介和职位列表

节点类型：JavaScript 代码节点

目的：将 markdown 拆分为简介和结构化的职位名称及链接列表。

Copy

return items.map(item => {
  const md = item.json.markdown;
  const splitRegex = /^#{1,3}\s*.+jobs added recently\s*$/im;
  const parts = md.split(splitRegex);
  const introSectionRaw = parts[0] || '';
  const jobsSectionRaw = parts.slice(1).join('') || '';
  const intro = introSectionRaw.replace(/^#+\s*/gm, '').trim();

  const jobs = [];
  const re = /\-\s*\[(?!\!)([^\]]+)\]\((https?:\/\/[^\)]+)\)/g;
  let match;
  while ((match = re.exec(jobsSectionRaw))) {
    jobs.push({
      title: match[1].trim(),
      link: match[2].trim(),
    });
  }

  return {
    json: {
      intro,
      jobs,
    },
  };
});

5. 扁平化职位以便导出

节点类型：JavaScript 代码节点

目的：将每个职位转换为单独的行以便于导出。

Copy

const output = [];
items.forEach(item => {
  const intro = item.json.intro;
  const jobs = item.json.jobs || [];
  jobs.forEach(job => {
    output.push({
      json: {
        intro,
        jobTitle: job.title,
        jobLink: job.link,
      },
    });
  });
});
return output;