🥳Tham gia Cộng đồng Scrapelessnhận thử nghiệm miễn phí của bạn để truy cập Bộ công cụ Web Scraping mạnh mẽ của chúng tôi!
Quay lại blog

Trình duyệt Scrapeless Chính thức Tích hợp Chức năng imageToText!

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

06-Jun-2025

Chúng tôi rất vui mừng thông báo rằng Scrapeless Browser đã chính thức ra mắt tính năng imageToText, hỗ trợ nhận diện và điền nội dung Captcha hình ảnh tự động thông qua CDP!

Việc nhận diện Captcha luôn là một điểm đau đầu trong tự động hóa web, và độ phức tạp của các Captcha hình ảnh đã khiến nhiều nhà phát triển cảm thấy vô cùng khó chịu.

Với việc phát hành tính năng imageToText, Scrapeless loại bỏ nhu cầu sử dụng dịch vụ OCR bên thứ ba và can thiệp thủ công; mọi thứ đều có thể được tự động hóa với một giao diện API duy nhất cho việc nhận diện và nhập liệu.

Điểm nổi bật của tính năng

  • Vừa ra mắt: Lệnh CDP Captcha.imageToText. Nó hỗ trợ một cách tự nhiên việc nhận diện Captcha hình ảnh và tự động điền vào các trường đầu vào được chỉ định với kết quả, tất cả chỉ trong vài giây.
  • Tương thích kép với Puppeteer và Playwright: Với SDK của Scrapeless, tính năng này có thể được gọi dễ dàng trong cả hai khung trình duyệt headless phổ biến, hỗ trợ một loạt các kịch bản phát triển.
  • Không cần tải hình ảnh hoặc tích hợp dịch vụ bên ngoài: Động cơ nhận diện tích hợp thực thi trực tiếp qua CDP, làm cho nó phù hợp với bất kỳ môi trường triển khai nào.

Trường hợp sử dụng

  • Tự động xử lý Captcha hình ảnh khi xây dựng các tác nhân AI.
  • Thường xuyên gặp phải các bảo vệ trang sản phẩm trong quá trình thu thập dữ liệu trên các trang web thương mại điện tử.
  • Xác minh hình ảnh cho các mẫu đăng nhập, quy trình đăng ký, và các điểm truy cập của crawler.
  • Các dịch vụ dữ liệu cấp doanh nghiệp yêu cầu giải pháp có thể mở rộng để vượt qua các hệ thống xác minh hình ảnh.

Cách tích hợp mã giải mã imageToText?

Thật đơn giản để gọi Puppeteer; bạn chỉ cần thêm đoạn mã sau vào chương trình hiện tại của bạn:

JavaScript Copy
const client = await page.createCDPSession();
await client.send("Captcha.imageToText", {
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
})

Ngoài ra, chúng tôi cũng hỗ trợ playwright:

JavaScript Copy
await page.goto("https://www.scrapeless.com", timeout=60000, wait_until="load")
client = await page.target.createCDPSession()
await client.send('Captcha.imageToText', {
  'imageSelector': '.captcha__image',
  'inputSelector': 'input[name="captcha"]',
  'timeout': 30000,
})

Ngoài ra, việc tích hợp SDK của Scrapeless sẽ tự động gọi lệnh Captcha.imageToText, hoàn thành quá trình nhận diện và nhập hình ảnh thông qua DevTools Protocol. Các nhà phát triển không cần bất kỳ cấu hình OCR nào hoặc tích hợp nền tảng bên thứ ba; chỉ cần một cú nhấp chuột là có thể sử dụng ngay!

JavaScript Copy
const { Puppeteer, createPuppeteerCDPSession } = require('@scrapeless-ai/sdk');
 
const browser = await Puppeteer.connect({
  session_name: 'sdk_test',
  session_ttl: 180,
  proxy_country: 'US',
  session_recording: true,
  defaultViewport: null
});
const page = await browser.newPage();
await page.goto('https://www.example.com');

const cdpSession = await createPuppeteerCDPSession(page);
 
await cdpSession.imageToText({
  imageSelector: '.captcha__image',
  inputSelector: 'input[name="captcha"]',
  timeout: 30000,
})

Kiểm tra ví dụ sử dụng của chúng tôi!

Để hiểu rõ hơn các bước thực hiện của tính năng này, hãy cùng xem ví dụ về việc truy cập: interception1.web.de.

Chúng tôi cam kết bảo vệ quyền riêng tư của trang web. Tất cả dữ liệu trong blog này là công khai và chỉ được sử dụng như một phương tiện minh họa cho quy trình thu thập dữ liệu. Chúng tôi không lưu trữ bất kỳ thông tin và dữ liệu nào.

  • Hướng dẫn sử dụng:
imageToText
  • Điều kiện tiên quyết

Đăng nhập vào Bảng điều khiển Scrapeless và nhận API Key

nhận API Key Scrapeless
  • Mã truy cập hoàn chỉnh như sau. Xin vui lòng nhớ thay thế khóa API của bạn và URL mục tiêu.
JavaScript Copy
import puppeteer from "puppeteer-core"

const query = new URLSearchParams({
    token: "YOUR_TOKEN",
    proxy_country: "ANY",
    session_recording: true,
    session_ttl: 900,
    session_name: "Default Script",
    defaultViewport: null,
})

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`

const browser = await puppeteer.connect({
    browserWSEndpoint: connectionURL,
    defaultViewport: null,
})

const page = await browser.newPage()
// truy cập vào trang web mục tiêu của bạn
await page.goto(
    "https://interception1.web.de/logininterceptionfrontend/?interceptiontype=VerifyLogin&interceptiontype=VerifyLogin&service=freemail",
    {
      timeout: 30000,
    }
);

// Tạo phiên CDP
const client = await page.createCDPSession();

// Giải quyết captcha hình ảnh
await client.send("Captcha.imageToText", {
imageSelector: ".captcha__image", // Bộ chọn hình ảnh captcha
inputSelector: 'input[name="captchaPanel:captchaImagePanel:captchaInput:topWrapper:inputWrapper:input"', // Bộ chọn đầu vào kết quả
timeout: 30000,
});

JavaScript Copy
import { Puppeteer, createPuppeteerCDPSession } from '@scrapeless-ai/sdk';

async function runExample() {
  console.log('Tạo phiên duyệt web Puppeteer...');
  const browser = await Puppeteer.connect({
    session_name: 'cdp-example-session',
    session_ttl: 300,
    proxy_country: 'US'
  });

  const page = await browser.newPage();

  console.log('Tạo phiên CDP được cải tiến bởi Scrapeless...');
  const cdpSession = await createPuppeteerCDPSession(page);

  console.log('Đi tới trang đăng nhập...');
  await page.goto('https://interception1.web.de/logininterceptionfrontend/?interceptiontype=VerifyLogin&interceptiontype=VerifyLogin&service=freemail');

  await cdpSession.imageToText({
    imageSelector: ".captcha__image", // Bộ chọn hình ảnh captcha
    inputSelector: 'input[name="captchaPanel:captchaImagePanel:captchaInput:topWrapper:inputWrapper:input"', // Bộ chọn đầu vào kết quả
    timeout: 30000,
  });

  await cdpSession.waitCaptchaDetected();

  await page.screenshot({ path: 'captcha-screenshot.png' });
}

runExample();

Những điều cần lưu ý

Tính năng imageToText được ra mắt bởi Scrapeless Browser là một nâng cấp quan trọng để giải quyết những thách thức của captcha hình ảnh. Nó tích hợp khả năng nhận diện hình ảnh như một tính năng tích hợp của Scrapeless SDK, cung cấp trải nghiệm hoàn toàn liền mạch cho các quy trình tự động hóa.

Bắt đầu sử dụng Scrapeless SDK ngay bây giờ để tận dụng tính năng mới này, giúp việc xử lý captcha trở nên hiệu quả và dễ dàng hơn!

Tài liệu tham khảo: CDP API - imageToText

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục