Usando Scrapy para Contornar Cloudflare: Tutorial 2024

Expert Network Defense Engineer
Uma ferramenta popular de desempenho e segurança online é o Cloudflare. Seu sistema anti-bot sofisticado emprega métodos de ponta para reconhecer e interromper o tráfego artificial, o que faz com que a mensagem de erro "ACESSO NEGADO" apareça.
Esta postagem ensinará você a usar Python e o middleware Scrapy Cloudflare para contornar o Cloudflare.
O que é o middleware chamado Scrapy-Cloudflare?
Um programa chamado middleware Scrapy Cloudflare funciona em conjunto com a ferramenta de raspagem de web Scrapy para cuidar dos problemas do Cloudflare em seu nome. Para interceptar e modificar solicitações e respostas em diferentes pontos durante o processo de raspagem, ele serve como intermediário entre sua aranha Scrapy e os servidores de destino.
Usar o middleware em seu projeto Scrapy aumentará a probabilidade de você escapar de detecção e bloqueios.
Como o Scrapy-Cloudflare é Operacional?
Uma aranha Scrapy cria consultas para URLs predefinidos assim que começa a rastrear. Depois de passar pelo pipeline de middleware, o Scrapy Cloudflare pode alterar essas solicitações para imitar o comportamento humano.
O objetivo principal dessa ferramenta é contornar a página "Estou sob ataque" do Cloudflare. Os desafios do JavaScript são resolvidos pelo middleware Scrapy Cloudflare, que intercepta a resposta do servidor de desafio do Cloudflare ao receber uma solicitação.
Como usar o middleware Scrapy-Cloudflare para contornar o Cloudflare?
Este artigo mostrará como usar Python e Scrapy para contornar o Cloudflare. Você deve adicionar o middleware às suas configurações DOWNLOADER_MIDDLEWARES
antes de enviar suas solicitações.
1. Prepare o scrapy
Certifique-se de que o Python esteja instalado porque o Scrapy é uma estrutura de código aberto que requer Python 3.6 ou superior. Em seguida, use o seguinte comando em seu terminal para instalar o Scrapy:
language
pip install scrapy
Em seguida, execute o comando abaixo para iniciar um novo projeto Scrapy. Coloque o nome do seu projeto em vez de test_project
.
language
scrapy startproject test_project
Abra a pasta do seu projeto recém-criado e execute o primeiro spider.
language
cd test_project
scrapy genspider (SpiderName) (TargetURL)
Está cansado de CAPTCHAs e bloqueios contínuos de scraping na web?
Scrapeless: a melhor solução de scraping online tudo em um disponível!
Utilize nosso formidável conjunto de ferramentas para liberar todo o potencial de sua extração de dados:
Melhor resolvedor de CAPTCHA
Resolução automatizada de CAPTCHAs complexos para garantir o scraping contínuo e suave.
Experimente grátis!
2. Configure e incorpore o middleware para Scrapy Cloudflare
Instalar o middleware Scrapy Cloudflare requer navegar até o diretório raiz e executar o seguinte comando:
language
pip install scrapy_cloudflare_middleware
Em seguida, abra o arquivo settings.py
e inclua o middleware Scrapy Cloudflare. Seu arquivo settings.py
deve ficar parecido com isto:
language
BOT_NAME = "test_project"
SPIDER_MODULES = ["test_project.spiders"]
NEWSPIDER_MODULE = "test_project.spiders"
DOWNLOADER_MIDDLEWARES = {
"test_project.middlewares.TestProjectDownloaderMiddleware": 543,
"scrapy_cloudflare_middleware.middlewares.CloudFlareMiddleware": 560,
}
Conclusão
O middleware Python Scrapy Cloudflare dependia da evasão de problemas fundamentais do Cloudflare JavaScript. Mas o sistema de segurança está sempre atualizando suas defesas, portanto, o middleware Scrapy Cloudflare não é mais funcional.
Felizmente, existe uma alternativa ao Scrapy chamada Scrapeless que fornece uma forma comprovada de permanecer desbloqueado. Junte-se hoje para obter uma avaliação gratuita e experimente!
Na Scrapeless, acessamos apenas dados disponíveis publicamente, cumprindo rigorosamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve quaisquer atividades ilegais ou infratoras. Não oferecemos garantias e nos isentamos de qualquer responsabilidade pelo uso de informações deste blog ou de links de terceiros. Antes de se envolver em qualquer atividade de scraping, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.