Cách sử dụng Puppeteer để bỏ qua CAPTCHA

Ava Wilson

Expert in Web Scraping Technologies

26-Sep-2024

Thu thập dữ liệu và phân tích dữ liệu trên quy mô lớn từ các trang web đòi hỏi việc tự động hóa web scraping và crawling. Tuy nhiên, việc truy cập trực tuyến tự động ngày càng trở nên khó khăn hơn do các công cụ chống bot như CAPTCHA.

Để phòng ngừa bảo mật, rất nhiều trang web thường xuyên tải CAPTCHA hoặc chặn màn hình. Nếu có thể, trình scraping tự động của bạn sẽ tránh tải màn hình chặn hoặc CAPTCHA trên trang web mục tiêu nếu nó có thể trông giống con người đối với trang web. Do đó, trình scraping của bạn có thể hoàn thành các tác vụ scraping và tránh các thử thách CAPTCHA và reCAPTCHA.

Nhưng làm cách nào để các trang web khiến trình scraping trông giống con người? Hãy cùng điều tra.

Hướng dẫn: Sử dụng Puppeteer để vượt qua CAPTCHA

Bạn phải tìm ra cách ngăn CAPTCHA tải để truy cập tài liệu từ các trang web bị chặn. Puppeteer có thể giúp chúng ta điều này. Đó là một gói Node.JS cung cấp API dễ sử dụng để quản lý DevTools Protocol của Chrome và Chromium. Thay vì sử dụng chế độ ẩn danh thông thường của Puppeteer, bạn có thể đặt nó chạy ở chế độ đầy đủ của Chrome/Chromium.

Tại sao Puppeteer không đủ tự thân?

Điều gì xảy ra nếu bạn sử dụng Puppeteer một mình để cố gắng truy cập tự động vào một trang web được bảo vệ bởi CAPTCHA? Trang web mục tiêu thông báo cho bạn về việc truy cập tự động và hiển thị màn hình chặn hoặc thử nghiệm CAPTCHA.

Hãy sử dụng các quy trình này để xác nhận điều đó:

Node.JS phải được cài đặt trên máy tính của bạn. Sử dụng lệnh npm sau để cài đặt Puppeteer trong một dự án Node.JS mới được tạo:

language Copy

npm i puppeteer

Thêm thư viện Puppeteer vào tệp Node.JS mà bạn đã tạo.

language Copy

const puppeteer = require('puppeteer');

Sử dụng mã sau để tạo một trang mới và một phiên bản trình duyệt ẩn danh:

language Copy

(async () => {
  // Tạo một phiên bản trình duyệt
  const browserObj = await puppeteer.launch();

  // Tạo một trang mới
  const newpage = await browserObj.newPage();

Vì thiết bị máy tính để bàn là cần thiết để chụp ảnh, chúng ta có thể sử dụng mã sau để điều chỉnh kích thước khung nhìn:

language Copy

  // Đặt chiều rộng và chiều cao của khung nhìn
  await newpage.setViewport({ width: 1920, height: 1080 });

Kích thước trang web được đặt thông qua hàm setViewPort(). Bạn có thể điều chỉnh nó cho phù hợp với thông số kỹ thuật của thiết bị của bạn.

Tiếp theo, hãy truy cập URL của một trang web mà bạn tin rằng được bảo vệ bởi CAPTCHA và chụp ảnh màn hình của nó.

Puppeteer-stealth được sử dụng để vượt qua CAPTACHA

Việc cài đặt tiện ích mở rộng Stealth với Puppeteer sẽ cho phép bạn tăng cường khả năng của nó. Với mảng khả năng của mình, tiện ích mở rộng Stealth có thể giải quyết phần lớn các kỹ thuật được sử dụng bởi các trang web được bảo mật để xác định các nỗ lực truy cập nhân tạo.

Việc truy cập ẩn danh tự động của Puppeteer có thể trở nên "giống con người" đến mức nhiều trang web sẽ không thể phân biệt được. Do đó, đối với một số trang web, CAPTCHA không thể tải do các lượt truy cập dựa trên stealth. Do đó, bạn có thể cho phép kịch bản Puppeteer của mình chạy tự động và truy cập dữ liệu bị ẩn sau CAPTCHA.

Lưu ý: Việc trình bày tất cả các kỹ thuật vượt qua trong hướng dẫn này chỉ nhằm mục đích giáo dục.

Bạn có mệt mỏi với CAPTCHA và các khối web scraping liên tục?

Scrapeless: giải pháp scraping trực tuyến tất cả trong một tốt nhất hiện có!

Sử dụng bộ công cụ đáng gờm của chúng tôi để khai thác tối đa tiềm năng của việc trích xuất dữ liệu của bạn:

Bộ giải CAPTCHA tốt nhất

Giải quyết tự động các CAPTCHA phức tạp để đảm bảo quá trình scraping trơn tru và liên tục.

Hãy thử miễn phí!

Tóm tắt

Các dự án tự động hóa web có thể bị cản trở bởi các vấn đề CAPTCHA; tuy nhiên, bằng cách sử dụng Puppeteer Stealth và bộ giải captcha của Scrapeless, bạn có thể vượt qua CAPTCHA và hợp lý hóa quy trình tự động của mình. Nếu bạn quan tâm đến các thư viện web scraping khác nhau, bạn cũng nên đọc bài viết blog này về cách sử dụng Playwright để vượt qua CAPTCHA. Luôn nhớ tuân thủ luật pháp và nhận tư vấn pháp lý trước khi bắt đầu bất kỳ hoạt động scraping nào.

Để tận dụng tối đa bộ giải captcha của Scrapeless, chúng tôi khuyên bạn nên đăng ký dùng thử miễn phí và xem qua hướng dẫn chi tiết của chúng tôi.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục