🥳Junte-se à Comunidade Scrapeless e Solicite sua avaliação gratuita para acessar nosso poderoso kit de ferramentas de Web Scraping!
Voltar ao blog

Como Bypass reCAPTCHA Durante Web Scraping

Michael Lee
Michael Lee

Expert Network Defense Engineer

16-Aug-2024

Introdução

O propósito do CAPTCHA é distinguir entre usuários reais de sites e programas automatizados, dando aos computadores tarefas complexas que você deve concluir antes de poder acessar o conteúdo real de um site.

O que podemos fazer para resolver isso? É exatamente isso que este artigo abordará: como contornar CAPTCHAs usando programação, com ênfase no reCAPTCHA.

reCAPTCHA: O que é?

Em 2007, o Google lançou o reCAPTCHA, um serviço de CAPTCHA gratuito, para oferecer aos proprietários de sites um método simples de incluir uma API CAPTCHA baseada em SaaS em seus sites. No início, também visava ajudar a digitalizar arquivos de jornais e bibliotecas. Ao fornecer informações digitalizadas aos usuários, ele converteu de forma colaborativa documentos que estavam disponíveis apenas em formato impresso. O Google descontinuou o suporte para a versão 1 há 6 anos, então vamos dar uma olhada na versão 2 e na versão 3.

reCAPTCHA v2

Quando o reCAPTCHA v2 foi publicado em 2013, trouxe a análise comportamental. Isso significa que antes que a caixa reCAPTCHA seja exibida e mostre apenas a caixa de verificação do CAPTCHA por padrão, o reCAPTCHA rastreia o comportamento do usuário e do navegador (ou seja, eventos de entrada como mouse e teclado). Depois que o usuário seleciona a caixa de verificação, o reCAPTCHA usará a impressão digital para decidir se o usuário precisa concluir um desafio CAPTCHA genuíno ou se pode passar imediatamente. Além disso, há uma solução de CAPTCHA "invisível" que pode ser integrada perfeitamente às operações do seu site.

reCAPTCHA v3

Em 2018, o Google melhorou ainda mais o reCAPTCHA e lançou uma implementação que calcula um bot-score - uma medida da probabilidade de que uma solicitação esteja vindo de um ser humano em vez de um script automatizado - em vez de exigir qualquer envolvimento do usuário. conteúdo de amostra

Usando Web Unlocker/Solver de CAPTCHA para Resolver reCAPTCHA

Hoje em dia, as tecnologias de resolução de CAPTCHA utilizam aprendizado de máquina e inteligência artificial para detectar e contornar obstáculos CAPTCHA com sucesso, graças à crescente popularidade da extração de dados da web. Uma rápida pesquisa por "Web Unlocker/Solver de CAPTCHA" resultará em uma infinidade de sites e serviços que oferecem um conjunto de recursos bastante semelhante. Utilizar o Scrapeless Web Unlocker é uma dessas opções.

Cansado de constantes bloqueios de scraping e CAPTCHAs?

Apresentamos o Scrapeless - a solução completa e definitiva de scraping da web!

Desbloqueie todo o potencial da sua extração de dados com nossa poderosa suíte de ferramentas:

Melhor Web Unlocker

Resolva automaticamente CAPTCHAs avançados, mantendo seu scraping contínuo e ininterrupto.

Experimente a diferença - experimente grátis!

Estratégias para Evitar Máximos reCAPTCHA Enquanto Faz Scraping na Web

Os scrapers da web evitam o reCAPTCHA de algumas maneiras diferentes. Aqui estão as mais confiáveis:

Cuidado com Armadilhas Ocultas

Os honeypots são armadilhas que aparecem para bots, mas permanecem indetectáveis para humanos. Estes podem ser páginas da web inteiras, formulários ou campos de dados que são frequentemente interagidos por bots quando realizam tarefas como web scraping.

A maioria dos sites usa JavaScript para ocultar armadilhas de honeypot, como display:none. Como os bots normalmente examinam partes de sites, há uma maior chance de que esses componentes ocultos possam ser vistos e interagidos.

Observe estas medidas práticas para evitar armadilhas de honeypot:

  • Observe os termos de serviço - Certifique-se de revisar as condições de um site antes de fazer scraping. Para uma lista de páginas que você pode rastrear, verifique o arquivo robots.txt e outras diretrizes de engajamento para bots. Em seguida, para evitar interferir na atividade de outros usuários, certifique-se de fazer web scraping durante horários de menor movimento e prolongue seus intervalos de solicitação.
  • Evite interagir com componentes ocultos - Honeypots podem levar a tags de âncora ocultas, portanto, você deve evitá-las ao rastrear links. Uma inspeção minuciosa do elemento da web e o uso de salvaguardas programáticas podem ajudá-lo a evitar lidar com componentes ocultos desnecessários do site.
  • Fique longe de redes públicas - Um servidor em uma rede pública compartilhada pode configurar um honeypot. Isso se deve ao fato de que redes Wi-Fi públicas às vezes têm criptografia pior do que aquelas encontradas em redes privadas. Devido a essa vulnerabilidade, os anti-bots podem monitorar todo o tráfego da rede, facilitando a identificação da atividade de scraping automatizado comparando os comportamentos de navegação de bots e usuários reais.

Nada revelará sua identidade como scraper mais rapidamente do que um agente do usuário do cliente HTTP que está definido como padrão.

A maioria dos anti-bots começa procurando por parâmetros semelhantes a bot nos cabeçalhos de solicitação. Esta é uma de suas primeiras medidas de segurança. Em situações mais complexas, eles verificam se os cabeçalhos de solicitação são autênticos, comparando-os com os de bots reconhecidos. Um CAPTCHA será acionado para impedir sua solicitação se ela diferir de alguma forma daquela de um navegador real.

Confira o cabeçalho de amostra a seguir:

language Copy
"User-Agent": [
      "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
HeadlessChrome/126.0.0.0 Safari/537.36"
    ]

Compare o User Agent real do Chrome abaixo com a imagem acima. Você verá que o Chrome é usado em vez do sinalizador HeadlessChrome, que parece um bot:

language Copy
"User-Agent": [
      "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/126.0.0.0 Safari/537.36"
    ]

Substitua os cabeçalhos baseados em bibliotecas pelos de um navegador genuíno para parecer autêntico e reduzir a probabilidade de ser colocado na lista negra. Até mesmo todo o cabeçalho de solicitação de um navegador pode ser copiado e usado por seu scraper.

Faça seu scraper parecer um usuário genuíno

As chaves para evitar a detecção são imitar o comportamento humano e evitar tendências semelhantes a bots. Para distinguir entre pessoas e bots, os métodos anti-bot monitoram o comportamento do usuário, como movimentos do mouse, técnicas de hovering, orientações de rolagem e locais de clique.

As seguintes técnicas podem ser utilizadas para imitar o comportamento real do usuário:

  • Incorporar aleatoriedade em tarefas repetitivas, como rolagem;
  • Selecionar os componentes que são exibidos ao clicar;
  • Inserir dados nos campos do formulário;
  • Ao separar interações, usar períodos de tempo arbitrários;
  • Após uma solicitação falhar ao ser processada, utilizar backoffs exponenciais para adiá a solicitação.

Considerações Finais

Quando você quer apenas terminar uma coleta de dados web rápida, os CAPTCHAs podem certamente causar muita dor. No entanto, existem várias maneiras de enfrentá-los a partir de um ambiente de raspagem, então não desista.

Sugerimos utilizar o Scrapeless, uma ferramenta de raspagem de dados web completa que oferece essas técnicas de contorno e muitas outras, para facilitar o seu trabalho de raspagem. Uma solicitação de API é tudo o que é necessário. Junte-se hoje para experimentá-lo gratuitamente.

Na Scrapeless, acessamos apenas dados disponíveis publicamente, cumprindo rigorosamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve quaisquer atividades ilegais ou infratoras. Não oferecemos garantias e nos isentamos de qualquer responsabilidade pelo uso de informações deste blog ou de links de terceiros. Antes de se envolver em qualquer atividade de scraping, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Catálogo