🥳Junte-se à Comunidade Scrapeless e Solicite sua avaliação gratuita para acessar nosso poderoso kit de ferramentas de Web Scraping!
Voltar ao blog

Usando Scrapy para Contornar Cloudflare: Tutorial 2024

Michael Lee
Michael Lee

Expert Network Defense Engineer

09-Sep-2024

Uma ferramenta popular de desempenho e segurança online é o Cloudflare. Seu sistema anti-bot sofisticado emprega métodos de ponta para reconhecer e interromper o tráfego artificial, o que faz com que a mensagem de erro "ACESSO NEGADO" apareça.

Esta postagem ensinará você a usar Python e o middleware Scrapy Cloudflare para contornar o Cloudflare.

O que é o middleware chamado Scrapy-Cloudflare?

Um programa chamado middleware Scrapy Cloudflare funciona em conjunto com a ferramenta de raspagem de web Scrapy para cuidar dos problemas do Cloudflare em seu nome. Para interceptar e modificar solicitações e respostas em diferentes pontos durante o processo de raspagem, ele serve como intermediário entre sua aranha Scrapy e os servidores de destino.

Usar o middleware em seu projeto Scrapy aumentará a probabilidade de você escapar de detecção e bloqueios.

Como o Scrapy-Cloudflare é Operacional?

Uma aranha Scrapy cria consultas para URLs predefinidos assim que começa a rastrear. Depois de passar pelo pipeline de middleware, o Scrapy Cloudflare pode alterar essas solicitações para imitar o comportamento humano.

O objetivo principal dessa ferramenta é contornar a página "Estou sob ataque" do Cloudflare. Os desafios do JavaScript são resolvidos pelo middleware Scrapy Cloudflare, que intercepta a resposta do servidor de desafio do Cloudflare ao receber uma solicitação.

Como usar o middleware Scrapy-Cloudflare para contornar o Cloudflare?

Este artigo mostrará como usar Python e Scrapy para contornar o Cloudflare. Você deve adicionar o middleware às suas configurações DOWNLOADER_MIDDLEWARES antes de enviar suas solicitações.

1. Prepare o scrapy

Certifique-se de que o Python esteja instalado porque o Scrapy é uma estrutura de código aberto que requer Python 3.6 ou superior. Em seguida, use o seguinte comando em seu terminal para instalar o Scrapy:

language Copy
pip install scrapy

Em seguida, execute o comando abaixo para iniciar um novo projeto Scrapy. Coloque o nome do seu projeto em vez de test_project.

language Copy
scrapy startproject test_project

Abra a pasta do seu projeto recém-criado e execute o primeiro spider.

language Copy
cd test_project
scrapy genspider (SpiderName) (TargetURL)

Está cansado de CAPTCHAs e bloqueios contínuos de scraping na web?

Scrapeless: a melhor solução de scraping online tudo em um disponível!

Utilize nosso formidável conjunto de ferramentas para liberar todo o potencial de sua extração de dados:

Melhor resolvedor de CAPTCHA

Resolução automatizada de CAPTCHAs complexos para garantir o scraping contínuo e suave.

Experimente grátis!

2. Configure e incorpore o middleware para Scrapy Cloudflare

Instalar o middleware Scrapy Cloudflare requer navegar até o diretório raiz e executar o seguinte comando:

language Copy
pip install scrapy_cloudflare_middleware

Em seguida, abra o arquivo settings.py e inclua o middleware Scrapy Cloudflare. Seu arquivo settings.py deve ficar parecido com isto:

language Copy
BOT_NAME = "test_project"

SPIDER_MODULES = ["test_project.spiders"]
NEWSPIDER_MODULE = "test_project.spiders"

DOWNLOADER_MIDDLEWARES = {
    "test_project.middlewares.TestProjectDownloaderMiddleware": 543,
    "scrapy_cloudflare_middleware.middlewares.CloudFlareMiddleware": 560,
}

Conclusão

O middleware Python Scrapy Cloudflare dependia da evasão de problemas fundamentais do Cloudflare JavaScript. Mas o sistema de segurança está sempre atualizando suas defesas, portanto, o middleware Scrapy Cloudflare não é mais funcional.

Felizmente, existe uma alternativa ao Scrapy chamada Scrapeless que fornece uma forma comprovada de permanecer desbloqueado. Junte-se hoje para obter uma avaliação gratuita e experimente!

Na Scrapeless, acessamos apenas dados disponíveis publicamente, cumprindo rigorosamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve quaisquer atividades ilegais ou infratoras. Não oferecemos garantias e nos isentamos de qualquer responsabilidade pelo uso de informações deste blog ou de links de terceiros. Antes de se envolver em qualquer atividade de scraping, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Catálogo