🥳加入无抓取社区领取您的免费试用,访问我们强大的网页抓取工具包!
返回博客

Scrapeless抓取浏览器 - 浏览器指纹自定义

Emily Chen
Emily Chen

Advanced Data Extraction Specialist

24-Apr-2025

在过去三十年中,浏览器始终作为互联网的主要入口。从早期的开创者如Mosaic和Internet Explorer,它们改变了人们访问网络的方式,到如今以Chrome为主流的产品,浏览器一直是信息检索、任务执行和上下文交互的核心环境。

随着人工智能的快速崛起,浏览器的角色正经历前所未有的变革。不论是Opera Aria、Perplexity,还是目前由OpenAI孵化的产品,出现了一个共同的认识:AI需要一个自己的浏览器——一个专为任务执行和上下文理解而构建的平台,而不仅仅是作为嵌入传统浏览器中的插件。

从AI集成的角度来看,AI浏览器产品大致可分为三类:

  • 增强AI的传统浏览器,通常以副驾驶风格的助手形式存在,如适用于Microsoft Edge和Chrome的浏览器扩展。

  • 具有内置AI能力的浏览器,在核心层面提供增强的权限和交互,例如用于组织选项卡的Arc Max或用于执行任务的Opera Aria。

  • 专用的AI原生浏览器,这是Scrapeless的基本愿景。在这一模式中,用户与在虚拟机中运行的浏览器内的AI交互,提供了更完整和自主的解决方案。

Scrapeless Scraping Browser正是基于这一愿景而诞生。它专为AI代理设计,不仅解决了高并发和任务自动化的挑战,还推动了AI执行能力的边界。然而,通过实际部署,一个关键限制变得明显:尽管对命令和网页具有强大的控制力,但如果系统被目标网站标记为机器人流量,所有优势将荡然无存。这揭示了当前一代AI浏览器中的一个关键技术瓶颈——浏览器指纹的真实性和多样性
作为回应,Scrapeless 在最新的产品更新中显著增强了其指纹定制能力。通过深度定制 Chromium 引擎,Scrapeless 实现了高度细粒度的指纹策略,确保每个虚拟浏览器实例具有独特的“类人”特征。这大大降低了被平台安全系统标记的风险。此升级不仅提高了 AI 操作在高频任务中的稳定性,还为未来基于代理的系统提供了更安全、更可靠的执行环境。

接下来的部分,我们将深入探讨 Scrapeless 的指纹层背后的技术细节,并探讨它如何成为下一代 AI 原生浏览器基础设施中的关键组件。

Scrapeless 抓取浏览器:优势和核心特性

Scrapeless 抓取浏览器是一个面向未来的基于云的浏览器解决方案,特别设计用于 AI 代理和自动化任务执行。它集成了高性能的并发处理架构、先进的浏览器指纹定制和智能反反爬虫逻辑,为用户提供一个稳定、高效、可扩展的数据交互平台。

无论是在智能代理系统中执行大规模网络任务,还是在多账户营销、动态内容提取和舆情监测等复杂场景中,Scrapeless 都提供了一个安全、隐秘且智能的环境模拟能力——有效绕过传统的反爬虫机制和指纹检测限制。

关键技术优势

1. 真实的浏览器环境

  • Chromium 引擎支持:提供一个完全功能的浏览器环境,以模拟真实用户行为。

  • TLS 指纹伪装:掩盖 TLS 指纹,以绕过传统的机器人检测系统,并表现得像一个普通浏览器。

  • 动态指纹混淆:随机调整浏览器环境变量(例如 User-Agent、Canvas、WebGL),以增强类人行为并规避复杂的反爬虫策略。

2. 基于云的架构和可扩展性

  • 云部署:完全基于云,不需要本地资源,支持全球分布式部署。

  • 高并发支持:从几十到无限的并发会话可扩展——非常适合大规模抓取和复杂的自动化任务。

  • 简单集成:与现有的自动化框架(例如,Playwright 和 Puppeteer)完全兼容,无需代码重构。

3. 专为 AI 代理而设计

  • 自动化代理支持:提供强大的代理功能,帮助 AI 代理执行复杂的浏览器自动化任务。

  • 灵活调用:支持多任务并行执行,成为构建智能代理系统和 AI 驱动应用程序的理想工具。

核心功能

1. 深度定制浏览器指纹

浏览器指纹是从浏览器和设备配置生成的独特数字标识符,常用于跟踪用户活动,即使在没有 cookies 的情况下。Scrapeless Scraping Browser 允许对这些指纹进行全面定制——支持对 User-Agent、时区、语言、屏幕分辨率和其他关键参数进行调整,以增强多帐户管理、数据收集和隐私保护。

通过允许对浏览器暴露的标准化参数进行受控调整,Scrapeless 帮助用户构建高度“真实”的浏览环境。以下是当前支持的主要指纹定制功能:

User-Agent 控制

允许在 HTTP 请求头中使用自定义 User-Agent 字符串,以模拟特定的浏览器版本、操作系统和设备环境,从而增强隐蔽性和兼容性。

屏幕分辨率映射

允许自定义屏幕宽度和屏幕高度的值,以模拟常见设备显示尺寸,支持响应式渲染并抵御设备指纹识别策略。

平台属性锁定

允许自定义 navigator.platform 返回值,以模拟标准平台类型(例如,Windows、macOS、Linux),影响网站如何适应不同的操作系统环境。

本地化环境模拟

全方位支持浏览器本地化设置的定制,影响网站内容本地化、时间格式渲染和语言偏好推断。支持的参数包括:

  • localization.timezone: 设置符合 IANA 标准的时区标识符(例如,Asia/Shanghai)

  • localization.locale: 设置符合 BCP 47 标准的语言区域代码(例如,zh-CN)

  • localization.languages: 定义 navigator.languages 和 Accept-Language HTTP 头的优先语言列表
    | 参数 | 描述 |
    |-------------------------|-----------------------------------------------------------------------------|
    | localization.timezone | 设置时区标识符(符合 IANA 格式,例如 Asia/Shanghai) |
    | localization.locale | 设置语言和区域(符合 BCP 47 格式,例如 zh-CN) |
    | localization.languages| 定义语言优先级列表,映射到 navigator.languagesAccept-Language HTTP 头 |

有关更高级的指纹自定义(例如 Canvas、WebGL、字体检测等),Scrapeless 正在持续开发中。未来,它将支持更细粒度的环境模拟能力——敬请期待。

Scrapeless 抓取浏览器指纹参数的详细说明

参数名称 类型 描述
userAgent 字符串 定义浏览器 HTTP 请求头中的 User-Agent 字符串,包括浏览器引擎、版本、操作系统及其他关键标识符。网站使用此信息进行客户端环境检测,影响内容适配和功能可用性。默认值: 跟随浏览器
platform 枚举 指定 JavaScript navigator.platform 属性的返回值,表示运行环境的操作系统类型。可选值:"Windows""macOS""Linux"。用于功能检测和启用特定于 OS 的行为。默认值: Windows
screen 对象 定义浏览器报告的物理显示特性,直接映射到 JavaScript 的 window.screen 对象。
screen.width 数字 物理屏幕宽度(以像素为单位),映射到 screen.width,影响媒体查询和响应式布局。默认值: 随机化与指纹,最小值 640
screen.height 数字 物理屏幕高度(以像素为单位),映射到 screen.height,与宽度一起定义分辨率。默认值: 随机化与指纹,最小值 480
localization 对象 控制浏览器的本地化设置,包括语言、区域和时区。这些设置影响格式化和内容本地化。
localization.timezone 字符串 符合 IANA 数据库的时区标识符(例如,"Asia/Shanghai"),控制 JavaScript 日期对象的行为和 Intl.DateTimeFormat 的输出。时区指纹识别的关键部分。 默认值: America/New_York
localization.languages [字符串] 一份优先支持语言的列表,映射到 navigator.languages 和 HTTP Accept-Language 头,影响网站语言选择。 默认值: "en""en-US"

2. CAPTCHA 解决能力

Scraping Browser 具有先进的 CAPTCHA 解决方案,可以自动处理大多数主流 CAPTCHA 类型,包括 reCAPTCHA 和 Cloudflare Turnstile。

  • 行业领先的成功率: Scrapeless 提供的 CAPTCHA 解决效率极高,成功率超过 98%。

  • 无需额外费用: 虽然大多数竞争对手对 CAPTCHA 解决功能收取额外费用,但 Scrapeless 将此功能作为其核心服务的一部分,无需额外收费。

  • 实时处理: Scrapeless 的 CAPTCHA 解决引擎响应时间达到毫秒级,确保平稳的任务执行。

3. 灵活且可控的代理集成系统

Scraping Browser 配备了高度可配置的代理支持系统,允许在自动化工作流中进行细致的路由和流量管理。

3.1 内置住宅代理

通过 Scrapeless 的内置管理住宅代理网络,您可以瞬时将流量路由到全球各地——非常适合绕过地理限制和反机器人措施。

  • 无需配置 - 开箱即用

  • 支持 195 个国家和地区的基于地理位置的代理

  • 稳定的高匿名代理,适用于大规模自动化

  • 通过内置的 playground 轻松测试和部署

3.2 自带代理

如果您有自己的代理服务或更喜欢特定的提供商,Scrapeless 提供灵活的代理集成:

  • 在会话创建时通过指定参数直接为任务分配代理

  • 使用您自己的代理不会计入 Scrapeless 的代理使用计费

4. 工具包支持

全面的自动化工具兼容性:Scrapeless 支持流行的浏览器自动化工具,例如 Puppeteer 和 Playwright,使开发人员易于集成。

  • AI集成能力: Scrapeless计划与浏览器使用、计算机使用和LangChain等工具进行深度集成。未来的更新将进一步释放大型语言模型在动态网络互动中的潜力。

  • 易用性: 附带详细的文档和示例代码,帮助用户快速上手。

5. 并发支持

  • 灵活的并发选项: Scrapeless支持从50到无限的并发会话,能够从小任务扩展到大规模自动化。

  • 无需额外的并发费用: 尽管竞争对手通常会对高并发使用案例收取费用,Scrapeless提供透明且灵活的定价模型,没有隐藏费用。

Scrapeless抓取浏览器指纹参数示例代码

以下是一个简单的示例代码,演示如何通过Puppeteer和Playwright集成Scrapeless的浏览器指纹自定义功能:

Puppeteer示例

Copy
const puppeteer = require('puppeteer-core');

// 自定义浏览器指纹
const fingerprint = {
    userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.1.2.3 Safari/537.36',
    platform: 'Windows',
    screen: {
        width: 1280, height: 1024
    },
    localization: {
        languages: ['zh-HK', 'en-US', 'en'], timezone: 'Asia/Hong_Kong',
    }
}

const query = new URLSearchParams({
  token: 'APIKey', // 必需
  session_ttl: 180,
  proxy_country: 'ANY',
  fingerprint: encodeURIComponent(JSON.stringify(fingerprint)),
});

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`;

(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    const info = await page.evaluate(() => {
        return {
            screen: {
                width: screen.width,
                height: screen.height,
            },
            userAgent: navigator.userAgent,
            timeZone: Intl.DateTimeFormat().resolvedOptions().timeZone,
            languages: navigator.languages
        };
    });
    console.log(info);
    await browser.close();
})();

Playwright示例

Copy
const { chromium } = require('playwright-core');

// 自定义浏览器指纹
const fingerprint = {
```json
userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.1.2.3 Safari/537.36',
    platform: 'Windows',
    screen: {
        width: 1280, height: 1024
    },
    localization: {
        languages: ['zh-HK', 'en-US', 'en'], timezone: 'Asia/Hong_Kong',
    }
}

const query = new URLSearchParams({
  token: 'APIKey', // 必需
  session_ttl: 180,
  proxy_country: 'ANY',
  fingerprint: encodeURIComponent(JSON.stringify(fingerprint)),
});

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`;

(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    const info = await page.evaluate(() => {
        return {
            screen: {
                width: screen.width,
                height: screen.height,
            },
            userAgent: navigator.userAgent,
            timeZone: Intl.DateTimeFormat().resolvedOptions().timeZone,
            languages: navigator.languages
        };
    });
    console.log(info);
    await browser.close();
})();
 

Scrapeless 爬虫浏览器指纹定制的适用场景

Scrapeless 爬虫浏览器的指纹定制功能适用于多种用例,包括但不限于以下内容:

1. 基本的多账户隔离与风险控制

对于管理多个账户的用户——例如跨境电商或社交媒体营销中的用户——Scrapeless 允许灵活配置浏览器指纹参数,如用户代理、屏幕分辨率、时区和语言偏好。这有助于避免账户之间的环境重叠,显著降低平台检测和账户联动的风险。

典型应用: 在 Shopify、Facebook 和 Google Ads 等平台上的账户环境隔离。

2. 轻量级数据收集与反 bot 规避

在执行网络爬虫任务时,Scrapeless 爬虫浏览器帮助用户将其自动化行为伪装为“真实用户”流量,而非机器人活动。通过模拟主流设备配置(如 Windows 10 + Chrome 114 + 1080p 显示器)并微调指纹细节,用户可以有效绕过目标网站的基础反机器人机制,例如:

- 用户代理黑名单
无需复杂的脚本或大规模的IP池调度,用户便可以实现快速而稳定的数据采集。

典型应用: 价格监控、舆情追踪、产品比较、SEO数据抓取。

兼容性测试

前端开发人员和QA工程师可以利用Scrapeless快速切换不同的操作系统(如Windows/macOS)、屏幕尺寸和其他参数,以模拟多样化的访问环境。这使得跨多个配置的渲染行为和功能完整性测试成为可能。

典型应用: 广告活动的A/B测试、响应式UI验证。

伦理声明

我们倡导负责任的指纹自定义:

  • 仅在合法授权的场景中使用(如企业数据合规收集、内部风险控制测试)。
  • 禁止通过伪造指纹进行在线欺诈或侵害用户隐私。

Scrapeless抓取浏览器的未来路线图

展望未来,Scrapeless抓取浏览器将继续优化其核心功能,以满足从基本数据抓取到高级AI驱动的自动化的广泛需求。我们的目标是为用户提供更强大的工具和无缝的体验。以下是我们的主要开发方向:

1. 调试和监控

  • 实时预览:可在Playground中实时查看以便于调试和任务接管。

  • 会话管理:支持会话回放、检查工具和元数据查询,以增强任务监控和控制。

2. 文件处理

  • 上传:使用Playwright、Puppeteer或Selenium轻松上传文件到目标网站。

  • 下载:下载的文件自动存储在云端,文件名附加Unix时间戳(例如,sample-1719265797164.pdf),以避免冲突。

  • 检索:通过API快速访问下载的文件—非常适合数据提取和报告生成场景。

3. 上下文API和扩展支持

  • 上下文API:启用会话持久性,优化登录流程和多步骤自动化场景。

  • 扩展支持:使用自己的Chrome扩展增强浏览器会话。

4. 元数据查询

  • 使用自定义标签和元数据查询来过滤和定位特定会话。

5. SDK和API增强

  • 会话 API:提供强大的会话管理功能,以简化工作流程操作。

  • CDP 事件增强:扩展对 Chrome DevTools 协议 (CDP) 特性的支持,包括检索页面 HTML、点击元素、滚动和捕获屏幕截图。

结论

在前面的章节中,我们讨论了当前浏览器自动化工具在支持 AI 驱动的自动化任务时面临的各种挑战。这些问题严重影响了开发人员的生产力和任务的可行性:

  • 高并发瓶颈: 传统浏览器在处理大量并行请求时往往面临困难,导致任务频繁失败。在高并发场景下,它们无法有效支持 AI 驱动的自动化任务。

  • 易被反爬虫机制检测: 传统浏览器表现出可预测的行为,缺乏人类般智能行为的模拟,使得网站的反爬虫系统容易检测和阻止它们,无法绕过这些保护措施。

  • 高成本: 在大规模任务中,传统浏览器消耗大量资源,运营成本高,限制了任务的规模和频率,从而降低了效率。

  • 复杂的集成和学习曲线: 对传统浏览器进行自动化任务集成通常需要复杂的配置和编码,增加了开发人员的学习难度,降低了开发效率。

为了解决这些问题,Scrapeless Scraping Browser 重新定义了“AI 浏览器”的概念,旨在为 AI 驱动的自动化任务提供更高效、更智能和更具成本效益的解决方案。以下是我们已经实施的主要创新:

打破高并发瓶颈:

  • 云弹性扩展: 通过创新的云架构,Scrapeless 实现了从五十到无限并发会话的无缝扩展,大大提高了吞吐量,确保任务稳定性和效率。即使在高并发场景下,任务也能顺利执行。

类人行为与指纹定制:

  • 全栈人类保护: Scrapeless 深度定制浏览器引擎,以模拟真实用户的浏览行为,绕过反爬虫检测机制。此次升级特别增强了指纹定制功能,允许开发者微调浏览器指纹属性,包括但不限于用户代理、屏幕分辨率等,进一步提高浏览器的隐蔽性和灵活性。

显著降低成本:

  • 无与伦比的成本效率: 与其他解决方案相比,Scrapeless 提供了 60%-80% 的成本降低,同时确保与 Playwright 和 Puppeteer 等工具的兼容性,使开发者能够以更低的成本自动化大规模任务。

简化集成和可用性:

  • 兼容性和易用性: Scrapeless 降低了开发门槛,减少了集成复杂性,使开发者能够快速入门,而无需面临陡峭的学习曲线。借助直观的 API 和界面,Scrapeless 使浏览器自动化变得更加简单和高效。

尽管我们取得了重大进展,Scrapeless 仍在不断发展。未来版本将包括更多智能功能,例如:

  • 更精确的指纹伪装和行为模拟;

  • 会话回放调试和扩展支持;

  • SDK 和 API 支持;

  • 与浏览器使用框架的深度集成,提供强大的 LLM 爬取能力、全站提取和深入研究能力,进一步提高自动数据爬取和深入研究的效率和准确性。

Scrapeless 爬虫浏览器,作为“人工智能浏览器”,不仅解决了当前关键问题,还在不断改进以应对未来挑战。我们邀请开发者和团队加入我们这一创新旅程,分享您的需求和建议,共同推动浏览器自动化技术进入一个更智能、更高效的新纪元。

关于 Scrapeless

在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。

最受欢迎的文章

目录