无损爬虫:可扩展网络数据抓取与爬行的解决方案

Senior Web Scraping Engineer
Scrapeless 很高兴推出 Crawl,一个专为大规模数据抓取和处理而设计的功能。Crawl 以其 智能递归抓取、批量数据处理能力 和 灵活的多格式输出 等核心优势脱颖而出,使企业和开发人员能够快速获取和处理海量网络数据,为 AI 训练、市场分析、商业决策等应用提供动力。
💡即将推出:通过 AI LLM Gateway 进行数据提取和摘要,能够无缝集成开源框架和可视化工作流程集成——为 AI 开发者解决网络内容挑战。
Crawl 是什么

Crawl 不仅仅是一个简单的数据抓取工具,而是一个整合了抓取和爬虫功能的综合平台。
-
批量爬取:支持大规模单页爬取和递归爬取。
-
多格式交付:兼容 JSON、Markdown、Metadata、HTML、Links 和 Screenshot 格式。
-
防检测抓取:我们独立开发的 Chromium 内核,可以实现高自定义、会话管理和反检测能力,如 指纹配置、验证码解决、隐身模式 和 代理轮换,以绕过网站屏蔽。
-
自研 Chromium 驱动:基于我们的 Chromium 内核,支持高自定义、会话管理和自动解决验证码。
1. 自动验证码解决:自动处理常见验证码类型,包括 reCAPTCHA v2 和 Cloudflare Turnstile/Challenge。
2. 会话录制和回放:会话回放可以帮助您通过录制的回放轻松检查操作和请求,逐步审查以快速理解操作以解决问题和改进流程。
3. 并发优势:与其他拥有严格并发限制的爬虫不同,Crawl 的 基础计划 支持 50 并发,而 高级计划 则支持 无限并发。
4. 成本节约:在具有反爬虫措施的网站上表现优于竞争对手,在免费的验证码解决上提供显著优势 — 预计 节省 70% 成本。
凭借先进的数据抓取和处理能力,Crawl 确保交付结构化的 实时搜索数据。这使企业和开发人员能够始终领先于市场趋势,优化数据驱动的自动化工作流程,并快速调整市场策略。
使用 Crawl 解决复杂数据挑战:更快、更智能、更高效
对于需要大规模可靠网页数据的开发人员和企业,Crawl 还提供:
✔ 高速数据抓取 – 几秒钟内从多个网页获取数据
✔ 无缝集成– 即将与开源框架和可视化工作流程集成,如 Langchain、N8n、Clay、Pipedream、Make 等。
✔ 地理定位代理 – 内置代理支持 195 个国家
✔ 会话管理 – 智能管理会话,并实时查看 LiveURL 会话
如何使用 Crawl
Crawl API 通过在单次调用中获取特定内容或递归抓取整个网站及其链接以收集所有可用数据来简化数据抓取,支持多种格式。
Scrapeless 提供了端点以启动抓取请求并检查其状态/结果。默认情况下,抓取是异步的:首先启动一个作业,然后监测其状态直到完成。然而,我们的 SDK 包含一个简单的函数,处理整个过程并在作业完成后返回数据。
安装
使用 NPM 安装 Scrapeless SDK:
Bash
npm install @scrapeless-ai/sdk
使用 PNPM 安装 Scrapeless SDK:
Bash
pnpm add @scrapeless-ai/sdk
抓取单个页面
在一次调用中从网页中抓取特定数据(例如,产品详情、评论)。
用法
JavaScript
import { Scrapeless } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new Scrapeless({
apiKey: "your-api-key", // 从 https://scrapeless.com 获取您的 API 密钥
});
(async () => {
const result = await client.scrapingCrawl.scrape.scrapeUrl(
"https://example.com"
);
console.log(result);
})();
浏览器配置
您可以自定义抓取的会话设置,例如使用代理,就像创建新的浏览器会话一样。
Scrapeless 自动处理常见 CPTCHAs,包括 reCAPTCHA v2 和 Cloudflare Turnstile/Challenge——不需要额外设置,详细信息请参见 验证码解决。
要探索所有浏览器参数,请查看 API 参考 或 浏览器参数。
JavaScript
import { Scrapeless } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new Scrapeless({
apiKey: "你的 API 密钥", // 从 https://scrapeless.com 获取你的 API 密钥
});
(async () => {
const result = await client.scrapingCrawl.scrapeUrl(
"https://example.com",
{
browserOptions: {
proxy_country: "任何",
session_name: "爬虫",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
抓取配置
抓取作业的可选参数包括输出格式、过滤以仅返回主页面内容以及设置页面导航的最大超时时间。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的 API 密钥", // 从 https://scrapeless.com 获取你的 API 密钥
});
(async () => {
const result = await client.scrapeUrl(
"https://example.com",
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
);
console.log(result);
})();
有关抓取端点的完整参考,请查看 API 参考。
批量抓取
批量抓取的工作方式与常规抓取相同,只是您可以提供要一次性抓取的 URL 列表,而不是单个 URL。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的 API 密钥", // 从 https://scrapeless.com 获取你的 API 密钥
});
(async () => {
const result = await client.batchScrapeUrls(
["https://example.com", "https://scrapeless.com"],
{
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
browserOptions: {
proxy_country: "任何",
session_name: "爬虫",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
爬取子页面
Crawl API 支持递归爬取网站及其链接,以提取所有可用数据。
有关详细用法,请查看爬取 API 参考。
用法
使用递归抓取来探索整个域及其链接,提取每一条可访问数据。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的 API 密钥", // 从 https://scrapeless.com 获取你的 API 密钥
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
},
browserOptions: {
proxy_country: "任何",
session_name: "爬虫",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
响应
JavaScript
{
"success": true,
"status": "completed",
"completed": 2,
"total": 2,
"data": [
{
"url": "https://example.com",
"metadata": {
"title": "示例页面",
"description": "一个示例网页"
},
"markdown": "# 示例页面\n这是内容...",
...
},
...
]
}
每个抓取的页面都有自己的状态为 completed
或 failed
,并且可以有自己的错误字段,因此请对此保持警惕。
要查看完整的 schema,请查看 API 参考。
浏览器配置
为抓取作业定制会话配置遵循与创建新浏览器会话相同的过程。可用选项包括代理配置。要查看所有支持的会话参数,请查阅 API 参考 或 浏览器参数。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的 API 密钥", // 从 https://scrapeless.com 获取你的 API 密钥
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
browserOptions: {
proxy_country: "任何",
session_name: "爬虫",
session_recording: true,
session_ttl: 900,
},
}
);
console.log(result);
})();
抓取配置
参数可能包括输出格式、过滤器以返回仅主页面内容,以及页面导航的最大超时设置。
JavaScript
import { ScrapingCrawl } from "@scrapeless-ai/sdk";
// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的api密钥", // 从 https://scrapeless.com 获取你的API密钥
});
(async () => {
const result = await client.crawlUrl(
"https://example.com",
{
limit: 2,
scrapeOptions: {
formats: ["markdown", "html", "links"],
onlyMainContent: false,
timeout: 15000,
}
}
);
console.log(result);
})();
关于爬虫端点的完整参考,请查看 [API 参考](https://apidocs.scrapeless.com/api-17509010)。
## **探索爬虫的多样化用例**
为开发者提供的内置 playground,可用于测试和调试代码,您可以将爬虫用于任何抓取需求,例如:
- **产品信息抓取**
从电子商务网站抓取关键数据,包括产品名称、价格、用户评分和评论数。完全支持产品监控,帮助企业做出明智的决策。

- **论坛帖子抓取**
精确控制深度和广度,捕获主帖子内容和子页面评论,确保从社区讨论中获得全面见解。

## **现在享受爬虫和抓取!**
***经济实惠,满足任何需求:起价为每GB $1.8,而不是每页***
采用基于Chromium的爬虫,结合代理量和每小时费率的定价模型,提供较大的数据项目相较于按页计费模型的**70%成本节省**,超越竞争对手。
[立即注册试用](https://app.scrapeless.com/passport/login?utm_source=official&utm_medium=blog&utm_campaign=crawl-release)并获取强大的网络工具包。
> 💡对于高容量用户,请联系我们获取定制定价 – 针对您的需求提供有竞争力的价格。
在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。