Como usar o Puppeteer para contornar CAPTCHA

Ava Wilson

Expert in Web Scraping Technologies

26-Sep-2024

A coleta e análise de dados em larga escala de websites através de web scraping e crawling automatizados são essenciais. No entanto, o acesso online automatizado tem se tornado cada vez mais difícil devido a ferramentas anti-bot, como o CAPTCHA.

Como medida de segurança, muitos websites frequentemente carregam CAPTCHAs ou bloqueiam telas. Se seu scraper automatizado conseguir parecer humano para o website de alguma forma, ele provavelmente evitará carregar uma tela de bloqueio ou CAPTCHA no website de destino. Como resultado, seu scraper pode completar as tarefas de scraping e evitar os desafios do CAPTCHA e reCAPTCHA.

Mas como os websites podem fazer com que um scraper pareça humano? Vamos investigar.

Tutorial: Usando Puppeteer para contornar o CAPTCHA

Para acessar conteúdo de websites bloqueados, você precisa descobrir como impedir o carregamento do CAPTCHA. O Puppeteer pode nos ajudar com isso. É um pacote Node.JS que oferece uma API fácil de usar para o gerenciamento do Protocolo DevTools do Chrome e Chromium. Em vez de usar o modo headless normal do Puppeteer, você pode configurá-lo para executar no modo completo Chrome/Chromium.

Por que o Puppeteer sozinho não é suficiente?

O que acontece se você usar o Puppeteer sozinho para tentar acessar automaticamente um website protegido por um CAPTCHA? O website de destino avisa você sobre o acesso automatizado e exibe uma tela de bloqueio ou um teste CAPTCHA.

Vamos usar esses procedimentos para confirmar isso:

O Node.JS precisa ser instalado no seu computador. Use o seguinte comando npm para instalar o Puppeteer em um projeto Node.JS recém-criado:

language Copy

npm i puppeteer

Adicione a biblioteca Puppeteer ao arquivo Node.JS que você criou.

language Copy

const puppeteer = require('puppeteer');

Use o seguinte código para criar uma nova página e uma instância de navegador headless:

language Copy

(async () => {
  // Criar uma instância de navegador
  const browserObj = await puppeteer.launch();

  // Criar uma nova página
  const newpage = await browserObj.newPage();

Como o dispositivo desktop é necessário para capturar a imagem, podemos usar o seguinte código para ajustar o tamanho da viewport:

language Copy

  // Definir a largura e altura da viewport
  await newpage.setViewport({ width: 1920, height: 1080 });

O tamanho da página da web é definido pela função setViewPort(). Você pode ajustá-la para atender às especificações do seu dispositivo.

Em seguida, vá para a URL de um website que você acredita estar protegido por CAPTCHA e capture uma imagem dele.

Puppeteer-stealth é usado para contornar o CAPTACHA

Instalar o addon Stealth com o Puppeteer permitirá que você aumente suas capacidades. Com seu conjunto de funcionalidades, o plugin Stealth pode resolver a maioria das técnicas usadas por websites seguros para identificar tentativas de acesso artificial.

Os acessos automatizados headless do seu Puppeteer podem se tornar tão "humanos" através do stealth que muitos websites não conseguirão perceber a diferença. Portanto, para alguns websites, o CAPTCHA não pode carregar devido a visitas baseadas em stealth. Assim, você pode permitir que seu script Puppeteer seja executado automaticamente e acesse os dados ocultos atrás do CAPTCHA.

Observação: A demonstração de todas as técnicas de bypass neste tutorial é exclusivamente para fins educacionais.

Você está cansado de CAPTCHAs e bloqueios contínuos de web scraping?

Scrapeless: a melhor solução de scraping online tudo-em-um disponível!

Utilize nosso formidável conjunto de ferramentas para liberar todo o potencial da sua extração de dados:

Melhor solucionador de CAPTCHA

Resolução automatizada de CAPTCHAs complexos para garantir scraping contínuo e tranquilo.

Experimente grátis!

Em resumo

Projetos de automação da web podem ser prejudicados por problemas de CAPTCHA; no entanto, usando o Puppeteer Stealth e o solucionador de captcha do Scrapeless, você pode contornar os CAPTCHAs e otimizar seu procedimento de automação. Se você estiver interessado em diferentes bibliotecas de web scraping, você também deve ler este artigo de blog sobre como usar o Playwright para contornar CAPTCHAs. Lembre-se sempre de permanecer dentro da lei e obter aconselhamento jurídico antes de iniciar qualquer tipo de atividade de scraping.

Para aproveitar ao máximo o solucionador de captcha do Scrapeless, recomendamos que você se inscreva para um teste gratuito e revise nossos instruções detalhadas.

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Aprenda a integrar o Crawl4AI com o Scrapeless Cloud Browser para uma raspagem web eficiente e em grande escala. Desbloqueie proxies automáticos, impressões digitais personalizadas, reutilização de sessões e depuração em tempo real.

Sophia Martinez

20-Oct-2025

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Servidor MCP sem resíduos está oficialmente no ar! Construa seu Conector AI-Web definitivo.

Descubra como o Servidor Scrapeless MCP fornece aos LLMs capacidades de navegação e raspagem na web em tempo real. Aprenda a construir agentes de IA que pesquisam, extraem e interagem com conteúdo web dinâmico de forma integrada.

Michael Lee

17-Jul-2025

Guia de Ferramentas USPS Sem Scrap: Extração Eficiente e Conformidade de Dados de Remessa para Sistemas B2B

Aprenda a usar a ferramenta Scrapeless USPS para buscar dados de rastreamento estruturados e em tempo real de forma eficiente e em conformidade para plataformas ERP, OMS e SaaS.

Emily Chen

02-Jul-2025

Guia de Ferramentas USPS Sem Resíduos: Extração de Dados de Envio Eficiente e em Conformidade para Sistemas B2B

Catálogo