Usando Scrapy para Contornar Cloudflare: Tutorial 2024

Michael Lee

Expert Network Defense Engineer

09-Sep-2024

Uma ferramenta popular de desempenho e segurança online é o Cloudflare. Seu sistema anti-bot sofisticado emprega métodos de ponta para reconhecer e interromper o tráfego artificial, o que faz com que a mensagem de erro "ACESSO NEGADO" apareça.

Esta postagem ensinará você a usar Python e o middleware Scrapy Cloudflare para contornar o Cloudflare.

O que é o middleware chamado Scrapy-Cloudflare?

Um programa chamado middleware Scrapy Cloudflare funciona em conjunto com a ferramenta de raspagem de web Scrapy para cuidar dos problemas do Cloudflare em seu nome. Para interceptar e modificar solicitações e respostas em diferentes pontos durante o processo de raspagem, ele serve como intermediário entre sua aranha Scrapy e os servidores de destino.

Usar o middleware em seu projeto Scrapy aumentará a probabilidade de você escapar de detecção e bloqueios.

Como o Scrapy-Cloudflare é Operacional?

Uma aranha Scrapy cria consultas para URLs predefinidos assim que começa a rastrear. Depois de passar pelo pipeline de middleware, o Scrapy Cloudflare pode alterar essas solicitações para imitar o comportamento humano.

O objetivo principal dessa ferramenta é contornar a página "Estou sob ataque" do Cloudflare. Os desafios do JavaScript são resolvidos pelo middleware Scrapy Cloudflare, que intercepta a resposta do servidor de desafio do Cloudflare ao receber uma solicitação.

Como usar o middleware Scrapy-Cloudflare para contornar o Cloudflare?

Este artigo mostrará como usar Python e Scrapy para contornar o Cloudflare. Você deve adicionar o middleware às suas configurações DOWNLOADER_MIDDLEWARES antes de enviar suas solicitações.

1. Prepare o scrapy

Certifique-se de que o Python esteja instalado porque o Scrapy é uma estrutura de código aberto que requer Python 3.6 ou superior. Em seguida, use o seguinte comando em seu terminal para instalar o Scrapy:

language Copy

pip install scrapy

Em seguida, execute o comando abaixo para iniciar um novo projeto Scrapy. Coloque o nome do seu projeto em vez de test_project.

language Copy

scrapy startproject test_project

Abra a pasta do seu projeto recém-criado e execute o primeiro spider.

language Copy

cd test_project
scrapy genspider (SpiderName) (TargetURL)

Está cansado de CAPTCHAs e bloqueios contínuos de scraping na web?

Scrapeless: a melhor solução de scraping online tudo em um disponível!

Utilize nosso formidável conjunto de ferramentas para liberar todo o potencial de sua extração de dados:

Melhor resolvedor de CAPTCHA

Resolução automatizada de CAPTCHAs complexos para garantir o scraping contínuo e suave.

Experimente grátis!

2. Configure e incorpore o middleware para Scrapy Cloudflare

Instalar o middleware Scrapy Cloudflare requer navegar até o diretório raiz e executar o seguinte comando:

language Copy

pip install scrapy_cloudflare_middleware

Em seguida, abra o arquivo settings.py e inclua o middleware Scrapy Cloudflare. Seu arquivo settings.py deve ficar parecido com isto:

language Copy

BOT_NAME = "test_project"

SPIDER_MODULES = ["test_project.spiders"]
NEWSPIDER_MODULE = "test_project.spiders"

DOWNLOADER_MIDDLEWARES = {
    "test_project.middlewares.TestProjectDownloaderMiddleware": 543,
    "scrapy_cloudflare_middleware.middlewares.CloudFlareMiddleware": 560,
}

Conclusão

O middleware Python Scrapy Cloudflare dependia da evasão de problemas fundamentais do Cloudflare JavaScript. Mas o sistema de segurança está sempre atualizando suas defesas, portanto, o middleware Scrapy Cloudflare não é mais funcional.

Felizmente, existe uma alternativa ao Scrapy chamada Scrapeless que fornece uma forma comprovada de permanecer desbloqueado. Junte-se hoje para obter uma avaliação gratuita e experimente!

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

n8n + LLM Scraper: Capture Respostas de IA em um Fluxo de Trabalho Sem Código

Crie um fluxo de trabalho n8n que capture respostas de LLM em um cronograma com um nó de Solicitação HTTP para o Scrapeless LLM Chat Scraper, sem código e sem navegador.

Alex Johnson

18-Jun-2026

workflow n8n capturando respostas de LLM via um nó de Solicitação HTTP

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Aprenda a integrar o Crawl4AI com o Scrapeless Cloud Browser para uma raspagem web eficiente e em grande escala. Desbloqueie proxies automáticos, impressões digitais personalizadas, reutilização de sessões e depuração em tempo real.

Sophia Martinez

20-Oct-2025

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Servidor MCP sem resíduos está oficialmente no ar! Construa seu Conector AI-Web definitivo.

Descubra como o Servidor Scrapeless MCP fornece aos LLMs capacidades de navegação e raspagem na web em tempo real. Aprenda a construir agentes de IA que pesquisam, extraem e interagem com conteúdo web dinâmico de forma integrada.

Michael Lee

17-Jul-2025

Catálogo