🥳Tham gia Cộng đồng Scrapelessnhận thử nghiệm miễn phí của bạn để truy cập Bộ công cụ Web Scraping mạnh mẽ của chúng tôi!
Quay lại blog

Cách mở khóa CAPTCHA hình ảnh thành văn bản trên Scrapeless?

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

06-Jun-2025

Chúng tôi rất vui mừng thông báo rằng Trình duyệt Scrapeless đã chính thức ra mắt tính năng imageToText, hỗ trợ nhận diện tự động và điền nội dung Captcha hình ảnh thông qua CDP!

Việc nhận diện Captcha luôn là một điểm đau trong tự động hóa web, và độ phức tạp của Captcha hình ảnh đã khiến nhiều nhà phát triển cảm thấy đặc biệt thất vọng.

Với việc phát hành tính năng imageToText, Scrapeless loại bỏ nhu cầu sử dụng các dịch vụ OCR bên thứ ba và can thiệp thủ công; mọi thứ có thể được tự động hóa chỉ với một giao diện API duy nhất để nhận diện và nhập liệu.

Điểm nổi bật của tính năng

  • Mới ra mắt: Lệnh CDP Captcha.imageToText. Nó hỗ trợ natively nhận diện Captcha hình ảnh và tự động điền vào các trường đầu vào chỉ định với kết quả, tất cả chỉ trong vài giây.
  • Tương thích kép với Puppeteer và Playwright: Với SDK Scrapeless, tính năng này có thể được gọi dễ dàng trong cả hai framework trình duyệt không đầu phổ biến, hỗ trợ nhiều kịch bản phát triển hơn.
  • Không cần tải hình ảnh hoặc tích hợp dịch vụ bên ngoài: Cơ chế nhận diện tích hợp thực thi trực tiếp qua CDP, làm cho nó phù hợp với mọi môi trường triển khai.

Các trường hợp sử dụng

  • Tự động xử lý Captcha hình ảnh khi xây dựng các tác nhân AI.
  • Thường gặp phải bảo vệ trang sản phẩm trong quá trình thu thập dữ liệu trên các trang web thương mại điện tử.
  • Xác minh hình ảnh cho các mẫu đăng nhập, quy trình đăng ký và các điểm vào của crawler.
  • Dịch vụ dữ liệu cấp doanh nghiệp yêu cầu các giải pháp có thể mở rộng để vượt qua các hệ thống xác minh hình ảnh.

Cách tích hợp giải mã imageToText?

Rất đơn giản để gọi Puppeteer; bạn chỉ cần thêm mã sau vào chương trình hiện có của mình:

JavaScript Copy
const client = await page.createCDPSession();
await client.send("Captcha.imageToText", {
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
})

Ngoài ra, chúng tôi hỗ trợ playwright:

JavaScript Copy
await page.goto("https://www.scrapeless.com", timeout=60000, wait_until="load")
client = await page.target.createCDPSession()
await client.send('Captcha.imageToText', {
  'imageSelector': '.captcha__image',
  'inputSelector': 'input[name="captcha"]',
  'timeout': 30000,
})

Thêm vào đó, việc tích hợp SDK Scrapeless sẽ tự động gọi lệnh Captcha.imageToText, hoàn thành quá trình nhận diện và nhập hình ảnh thông qua DevTools Protocol. Các nhà phát triển không cần bất kỳ cấu hình OCR nào hay tích hợp nền tảng bên thứ ba; chỉ cần một cú nhấp chuột là sẵn sàng sử dụng!

JavaScript Copy
const { Puppeteer, createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
 
const browser = await Puppeteer.connect({
  session_name: 'sdk_test',
  session_ttl: 180,
  proxy_country: 'US',
  session_recording: true,
  defaultViewport: null
});
const page = await browser.newPage();
await page.goto('https://www.example.com');

const cdpSession = await createPuppeteerCDPSession(page);
 
await cdpSession.imageToText({
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
})

Kiểm tra ví dụ sử dụng của chúng tôi!

Để hiểu rõ hơn các bước triển khai tính năng này, hãy cùng lấy ví dụ về việc truy cập: interception1.web.de.

Chúng tôi nghiêm ngặt bảo vệ quyền riêng tư của trang web. Tất cả dữ liệu trong blog này là công khai và chỉ được sử dụng như một ví dụ cho quá trình thu thập dữ liệu. Chúng tôi không lưu trữ bất kỳ thông tin và dữ liệu nào.

  • Hướng dẫn sử dụng:
imageToText
  • Điều kiện tiên quyết

Đăng nhập vào bảng điều khiển Scrapeless và nhận API Key

nhận API Key Scrapeless
  • Mã truy cập hoàn chỉnh như sau. Vui lòng nhớ thay thế API key và URL mục tiêu của bạn.
JavaScript Copy
import puppeteer from "puppeteer-core"

const query = new URLSearchParams({
    token: "YOUR_TOKEN",
    proxy_country: "ANY",
    session_recording: true,
    session_ttl: 900,
    session_name: "Default Script",
    defaultViewport: null,
})

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`

const browser = await puppeteer.connect({
    browserWSEndpoint: connectionURL,
    defaultViewport: null,
})

const page = await browser.newPage()
// truy cập vào trang web mục tiêu của bạn
await page.goto(
    "https://interception1.web.de/logininterceptionfrontend/?interceptiontype=VerifyLogin&interceptiontype=VerifyLogin&service=freemail",
    {
      timeout: 30000,
    }
);

// Tạo phiên CDP
const client = await page.createCDPSession();

Here is the Vietnamese translation of the provided text:

Copy
// Giải quyết captcha hình ảnh
await client.send("Captcha.imageToText", {
    imageSelector: ".captcha__image", // Bộ chọn captcha hình ảnh
    inputSelector: 'input[name="captchaPanel:captchaImagePanel:captchaInput:topWrapper:inputWrapper:input"', // Bộ chọn đầu vào kết quả
    timeout: 30000,
});

Hơn nữa, bạn cũng có thể vượt qua Captchas bằng cách tích hợp SDK Scrapeless. Dưới đây là mã tham khảo của chúng tôi:

JavaScript Copy
import { Puppeteer, createPuppeteerCDPSession } from '@scrapeless-ai/sdk';

async function runExample() {
  console.log('Đang tạo phiên bản trình duyệt Puppeteer...');
  const browser = await Puppeteer.connect({
    session_name: 'cdp-example-session',
    session_ttl: 300,
    proxy_country: 'US'
  });

  const page = await browser.newPage();

  console.log('Đang tạo phiên CDP nâng cao bởi Scrapeless...');
  const cdpSession = await createPuppeteerCDPSession(page);

  console.log('Đang điều hướng đến trang đăng nhập...');
  await page.goto('https://interception1.web.de/logininterceptionfrontend/?interceptiontype=VerifyLogin&interceptiontype=VerifyLogin&service=freemail');

  await cdpSession.imageToText({
    imageSelector: ".captcha__image", // Bộ chọn captcha hình ảnh
    inputSelector: 'input[name="captchaPanel:captchaImagePanel:captchaInput:topWrapper:inputWrapper:input"', // Bộ chọn đầu vào kết quả
    timeout: 30000,
  });

  await cdpSession.waitCaptchaDetected();

  await page.screenshot({ path: 'captcha-screenshot.png' });
}

runExample();

Những điều cần lưu ý

Tính năng imageToText được ra mắt bởi Scrapeless Browser là một nâng cấp quan trọng để giải quyết các thách thức của captcha hình ảnh. Nó tích hợp nhận diện hình ảnh như một khả năng gốc của SDK Scrapeless, cung cấp trải nghiệm thực sự liền mạch cho các quy trình tự động hóa.

Bắt đầu sử dụng Scrapeless SDK ngay bây giờ để tận hưởng tính năng mới này, giúp nhiệm vụ xử lý Captcha hiệu quả và dễ dàng hơn!

Tài liệu tham khảo: CDP API - imageToText

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục