如何在2026年设置Crawlee代理

Michael Lee

Expert Network Defense Engineer

17-Dec-2025

快速查看

在Crawlee中配置优质住宅代理，以避免IP被封锁，并可靠地扩展您的网络爬取操作，适用于任何目标网站。

立即登录 - 免费试用

关键要点

Crawlee是一个现代网络爬虫框架，基于Puppeteer/Playwright，适用于JavaScript密集型网站
免费代理不可靠，并且会被反爬虫系统主动阻止
优质住宅代理提供合法的ISP分配的IP，能够突破大多数封锁机制
代理认证需要嵌入连接字符串中的用户名和密码凭证
正确的代理配置可以在不中断IP或请求超时的情况下实现大规模爬取

理解Crawlee

Crawlee是一个简化爬取和抓取流程的网络爬虫框架。它基于无头浏览器技术，如Puppeteer（Node.js）和Playwright（Python），处理浏览器自动化、会话管理和结果存储。与简单的HTTP库不同，Crawlee执行JavaScript、管理Cookies，并与动态内容交互——这对现代网站至关重要，因为这些网站的内容在客户端呈现。

然而，网站通过各种机制检测并阻止Crawlee的默认行为。标准用户代理识别Crawlee脚本，反爬虫系统会对请求发起怀疑。从数据中心IP地址发起的请求会引起怀疑。快速连续请求会触发速率限制。代理通过在合法的住宅IP上分配请求并隐藏真实的请求来源来解决这些问题。

免费代理的局限性

在公共数据库中列出的免费代理对注重成本的开发者似乎很有吸引力。然而，它们带来了显著的缺点：

不可靠的可用性：免费代理经常消失或变得无法访问，导致爬虫在操作中断
慢速性能：免费代理通过多个中间服务器路由流量，增加延迟，减慢数据收集
高封锁率：网站维护已知免费代理IP的封锁列表，使其在严肃爬虫中的效果不佳
安全隐患：免费代理运营商无法保证合法运营——某些还会拦截流量或注入恶意软件
没有支持：当问题出现时，免费代理服务提供零客户支持

价格实惠的优质代理，如Scrapeless住宅代理，起价为每GB 0.40美元，尽管成本差异很小，但显著优于免费的替代品。

优质代理的好处

优质住宅代理为Crawlee操作提供了真正的优势：

真实住宅IP：代理使用ISP分配给实际家庭互联网用户的IP地址，使其与真实流量 indistinguishable
IP轮换：智能分配算法自动循环使用不同的地址，防止每个IP累积可疑模式
地理定位：选择匹配目标网站地理期望的代理位置
高正常运行时间：专业供应商保证99.9%+的可用性，并提供SLA保护
智能路由：自动检测和避开缓慢或被封锁的连接

这些能力将Crawlee从一个需要广泛手动管理的工具转变为一个生产级的爬虫平台。

基本的Crawlee代理配置

Crawlee通过传递给爬虫实例的配置对象来支持代理。基本结构需要带有身份验证的代理URL：

javascript Copy

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    proxyUrls: [
        'http://username:password@proxy.example.com:8080'
    ]
});

await crawler.addRequests([
    { url: 'https://example.com/page1' },
    { url: 'https://example.com/page2' }
]);

await crawler.run();

代理URL格式遵循标准模式：protocol://[username:password@]host[:port]

设置Scrapeless住宅代理

Scrapeless住宅代理通过简单配置与Crawlee无缝集成。访问您的账户仪表板以获取自动生成的代理凭证：

第1步：访问代理生成器
登录到您的 Scrapeless 账户并导航到代理生成器仪表板。您的自动生成的住宅代理凭据显示在页面顶部。

步骤 2：配置凭据

通过凭据管理界面设置您的用户名和密码。Scrapeless 支持多个凭据集以用于不同的应用程序。

步骤 3：格式化代理 URL

将您的凭据和代理端点组合成有效的代理 URL：

Copy

http://username:password@superproxy.scrapeless.com:1337

Scrapeless 为 HTTP（端口 1337）和 HTTPS（端口 1338）流量提供了单独的端点。

步骤 4：与 Crawlee 集成

将代理 URL 应用到您的 Crawlee 配置中：

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337';

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    useSessionPool: true
});

await crawler.addRequests([
    { url: 'https://target-website.com' }
]);

await crawler.run();

高级代理配置

多个代理 URL：Crawlee 接受代理 URL 数组，自动将请求分布到多个代理上：

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [
        'http://user1:pass1@proxy1.scrapeless.com:1337',
        'http://user2:pass2@proxy2.scrapeless.com:1337',
        'http://user3:pass3@proxy3.scrapeless.com:1337'
    ]
});

动态代理选择：对于复杂的抓取操作，Scrapeless 提供了智能代理选择，根据目标网站特征优化 IP 分配。

地理定位：通过 URL 参数指定代理地理位置：

javascript Copy

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337?country=US&state=NY';

该参数强制所有请求通过纽约的代理，从而确保适合当地的响应。

处理认证和会话

一些网站需要登录凭据。Crawlee 通过会话管理处理身份验证。当与代理轮换结合使用时，会话在来自不同 IP 的请求之间保持登录状态：

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337'],
    useSessionPool: true,
    sessionPoolOptions: {
        maxPoolSize: 50
    }
});

crawler.addPostResponseHandler(async ({ page, session }) => {
    // 每个会话维护自己的 cookies 和身份验证状态
    if (session.isValid) {
        // 处理已认证的页面
    }
});

Crawlee 的会话池为每个会话隔离 cookies 和状态，确保轮换 IP 不会破坏身份验证。

避免常见的代理问题

代理超时：如果请求经常超时，请增加超时值：

javascript Copy

const crawler = new PuppeteerCrawler({
    navigationTimeoutSecs: 30,
    proxyUrls: [proxyUrl]
});

连接被拒绝：验证凭据是否符合您的代理提供商的要求。拼写错误或格式错误会导致立即连接失败。

尽管使用代理仍受限速：即使使用代理轮换，过高的请求速率仍会触发封锁。实施请求延迟：

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    handlePageTimeoutSecs: 60,
    preNavigationHooks: [
        async ({ request }) => {
            await page.waitForTimeout(Math.random() * 3000)
        }
    ]
});

被阻止的代理：如果个别 Scrapeless 代理被阻止，服务会自动切换到其他地址。如果阻止持续存在，请联系支持。

综合解决方案：Scrapeless 浏览器

为了最大限度地提高可靠性，Scrapeless 浏览器 提供了内置代理轮换、JavaScript 渲染和反机器人绕过的 Puppeteer 替代方案：

免费试用 >

该浏览器自动处理代理配置，消除手动设置，同时在受保护的网站上提供更高的成功率。

测试您的配置

通过检查返回的 IP 地址验证代理设置：

javascript Copy

```javascript
const { PuppeteerCrawler } = require('crawlee');

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337']
});

crawler.addPostResponseHandler(async ({ page }) => {
    const ipInfo = await page.evaluate(() => {
        return fetch('https://httpbin.io/ip').then(r => r.json());
    });
    console.log('请求的 IP:', ipInfo.origin);
});

如果返回的 IP 与您的计算机的 IP 不同，则代理工作正常。如果相符，则请求绕过了代理—请检查凭证和连接详细信息。