Como Configurar um Proxy Crawlee em 2026
Expert Network Defense Engineer
Configure proxies residenciais premium no Crawlee para evitar bloqueios de IP e escalar suas operações de web scraping de forma confiável em qualquer site-alvo.
Principais Conclusões
- Crawlee é uma estrutura moderna de web scraping construída sobre Puppeteer/Playwright para sites com muito JavaScript.
- Proxies gratuitos são pouco confiáveis e bloqueados ativamente por sistemas anti-web scraping.
- Proxies residenciais premium fornecem IPs legítimos atribuídos por ISPs que superam a maioria dos mecanismos de bloqueio.
- A autenticação de proxy requer credenciais de nome de usuário e senha incorporadas nas strings de conexão.
- A configuração adequada de proxy permite scraping em larga escala sem banimentos de IP ou timeouts de requisição.
Compreendendo o Crawlee
Crawlee é uma estrutura de web scraping que simplifica fluxos de trabalho de crawling e scraping. Construído sobre tecnologias de navegadores sem interface gráfica como Puppeteer (Node.js) e Playwright (Python), o Crawlee lida com automação de navegador, gerenciamento de sessão e armazenamento de resultados. Ao contrário de bibliotecas HTTP mais simples, o Crawlee executa JavaScript, gerencia cookies e interage com conteúdo dinâmico—crucial para sites modernos que renderizam conteúdo do lado do cliente.
No entanto, sites detectam e bloqueiam o comportamento padrão do Crawlee por meio de vários mecanismos. O user agent padrão identifica scripts do Crawlee para sistemas anti-bot. Requisições de endereços IP de datacenters levantam suspeitas. Limitações de taxa são acionadas quando o Crawlee faz requisições rápidas e sucessivas. Proxies resolvem esses problemas distribuindo requisições por IPs residenciais legítimos e ocultando a verdadeira origem da requisição.
Limitações dos Proxies Gratuitos
Proxies gratuitos listados em bancos de dados públicos parecem atraentes para desenvolvedores preocupados com custos. No entanto, eles introduzem desvantagens significativas:
Disponibilidade pouco confiável: Proxies gratuitos frequentemente desaparecem ou se tornam inacessíveis, quebrando scrapers no meio da operação.
Desempenho lento: Proxies gratuitos encaminham tráfego através de múltiplos servidores intermediários, introduzindo latência que desacelera a coleta de dados.
Altas taxas de bloqueio: Sites mantêm listas de bloqueio de IPs de proxies gratuitos conhecidos, tornando-os ineficazes para scraping sério.
Preocupações de segurança: Operadores de proxies gratuitos não podem garantir operações legítimas—alguns interceptam tráfego ou injetam malware.
Sem suporte: Serviços de proxies gratuitos não oferecem suporte ao cliente quando surgem problemas.
Proxies premium com preço acessível, como Proxies Residenciais Scrapeless, a partir de $0,40/GB, superam dramaticamente as alternativas gratuitas, apesar das mínimas diferenças de custo.
Benefícios dos Proxies Premium
Proxies residenciais premium oferecem vantagens legítimas para operações com o Crawlee:
IPs residenciais reais: Proxies usam endereços IP atribuídos por ISPs a usuários de internet em casa, tornando-os indistinguíveis de tráfego genuíno.
Rodízio de IP: Algoritmos de alocação inteligentes alternam automaticamente entre endereços diversos, prevenindo a acumulação de padrões suspeitos por IP.
Segmentação geográfica: Selecione locais de proxy que correspondam às expectativas geográficas do seu site-alvo.
Alta disponibilidade: Fornecedores profissionais garantem 99,9%+ de disponibilidade com proteções de SLA.
Roteamento inteligente: Detecção automática e evitação de conexões lentas ou bloqueadas.
Essas capacidades transformam o Crawlee de uma ferramenta que requer gerenciamento manual extenso em uma plataforma de scraping de nível de produção.
Configuração Básica de Proxy no Crawlee
Crawlee suporta proxies através de objetos de configuração passados para instâncias de crawler. A estrutura básica requer a URL do proxy com autenticação:
javascript
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyUrls: [
'http://username:password@proxy.example.com:8080'
]
});
await crawler.addRequests([
{ url: 'https://example.com/page1' },
{ url: 'https://example.com/page2' }
]);
await crawler.run();
O formato da URL do proxy segue o padrão padrão: protocolo://[username:password@]host[:port]
Configurando Proxies Residenciais Scrapeless
Proxies Residenciais Scrapeless se integram perfeitamente ao Crawlee através de uma configuração simples. Acesse o painel da sua conta para obter credenciais de proxy geradas automaticamente:
Passo 1: Acesse o Gerador de Proxy
Faça login na sua conta Scrapeless e navegue até o painel do Gerador de Proxy. Suas credenciais de proxy residencial geradas automaticamente aparecem na parte superior da página.
Passo 2: Configurar Credenciais
Defina seu nome de usuário e senha através da interface de gerenciamento de credenciais. O Scrapeless suporta múltiplos conjuntos de credenciais para diferentes aplicações.
Passo 3: Formatar URL do Proxy
Combine suas credenciais e o ponto de extremidade do proxy em um URL de proxy válido:
http://username:password@superproxy.scrapeless.com:1337
O Scrapeless fornece pontos de extremidade separados para tráfego HTTP (porta 1337) e HTTPS (porta 1338).
Passo 4: Integrar com Crawlee
Aplique a URL do proxy à sua configuração do Crawlee:
javascript
import { PuppeteerCrawler } from 'crawlee';
const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337';
const crawler = new PuppeteerCrawler({
proxyUrls: [proxyUrl],
useSessionPool: true
});
await crawler.addRequests([
{ url: 'https://target-website.com' }
]);
await crawler.run();
Configuração Avançada de Proxy
Múltiplas URLs de Proxy: Crawlee aceita arrays de URLs de proxy, distribuindo automaticamente as solicitações entre múltiplos proxies:
javascript
const crawler = new PuppeteerCrawler({
proxyUrls: [
'http://user1:pass1@proxy1.scrapeless.com:1337',
'http://user2:pass2@proxy2.scrapeless.com:1337',
'http://user3:pass3@proxy3.scrapeless.com:1337'
]
});
Seleção Dinâmica de Proxy: Para operações de raspagem complexas, o Scrapeless fornece seleção de proxy inteligente que otimiza a alocação de IPs com base nas características do site-alvo.
Segmentação Geográfica: Especifique a geolocalização do proxy através de parâmetros de URL:
javascript
const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337?country=US&state=NY';
Esse parâmetro força todas as solicitações através de proxies em Nova Iorque, garantindo respostas apropriadas para a localidade.
Tratando Autenticação e Sessões
Alguns sites requerem credenciais de login. O Crawlee lida com a autenticação através do gerenciamento de sessões. Quando combinado com a rotação de proxies, as sessões mantêm o estado de login entre solicitações de diferentes IPs:
javascript
import { PuppeteerCrawler } from 'crawlee';
const crawler = new PuppeteerCrawler({
proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337'],
useSessionPool: true,
sessionPoolOptions: {
maxPoolSize: 50
}
});
crawler.addPostResponseHandler(async ({ page, session }) => {
// Cada sessão mantém seus próprios cookies e estado de autenticação
if (session.isValid) {
// Processar página autenticada
}
});
O pool de sessões do Crawlee isola cookies e estado por sessão, garantindo que a rotação de IPs não interrompa a autenticação.
Evitando Problemas Comuns de Proxy
Timeout de Proxy: Se as solicitações estão frequentemente expirando, aumente os valores de timeout:
javascript
const crawler = new PuppeteerCrawler({
navigationTimeoutSecs: 30,
proxyUrls: [proxyUrl]
});
Conexão Recusada: Verifique se as credenciais correspondem aos requisitos do seu provedor de proxy. Erros de digitação ou formatação causam falhas imediatas de conexão.
Limitação de Taxa Apesar dos Proxies: Mesmo com a rotação de proxies, taxas excessivas de solicitações acionam bloqueios. Implemente atrasos nas solicitações:
javascript
const crawler = new PuppeteerCrawler({
proxyUrls: [proxyUrl],
handlePageTimeoutSecs: 60,
preNavigationHooks: [
async ({ request }) => {
await page.waitForTimeout(Math.random() * 3000)
}
]
});
Proxies Bloqueados: Se proxies individuais do Scrapeless forem bloqueados, o serviço gira automaticamente para endereços diferentes. Entre em contato com o suporte se os bloqueios persistirem.
Solução Abrangente: Scrapeless Browser
Para máxima confiabilidade, Scrapeless Browser fornece uma substituição fácil para Puppeteer com rotação de proxy integrada, renderização em JavaScript e desvio de bot:
O navegador lida com a configuração do proxy automaticamente, eliminando a configuração manual enquanto entrega taxas de sucesso superiores contra sites protegidos.
Testando Sua Configuração
Verifique a configuração do proxy conferindo os endereços IP retornados:
javascript
```javascript
const { PuppeteerCrawler } = require('crawlee');
const crawler = new PuppeteerCrawler({
proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337']
});
crawler.addPostResponseHandler(async ({ page }) => {
const ipInfo = await page.evaluate(() => {
return fetch('https://httpbin.io/ip').then(r => r.json());
});
console.log('IP da requisição:', ipInfo.origin);
});
Se o IP retornado diferir do IP do seu computador, o proxy está funcionando corretamente. Se coincidir, as requisições estão ignorando o proxy—verifique as credenciais e os detalhes da conexão.
Otimização de Desempenho
Proxies devidamente configurados possibilitam raspagem de alto desempenho:
- Concorrência: Execute 50+ requisições paralelas ao usar rotação de proxies
- Velocidade: As requisições levam em média de 1-2 segundos com proxies premium contra 5-10 segundos com proxies gratuitos
- Confiabilidade: Taxas de sucesso de 99%+ contra 50-70% para gestão de proxies gratuitos ou manuais
Essas melhorias se traduzem diretamente em uma coleta de dados mais rápida e custos operacionais mais baixos, apesar das despesas com proxies.
FAQ
Q: Preciso de credenciais de proxy diferentes para cada instância do Crawlee?
R: Não. Credenciais de proxy únicas funcionam em várias instâncias do Crawlee. No entanto, executar múltiplas raspadoras em larga escala simultaneamente pode se beneficiar de credenciais separadas, permitindo uma gestão independente dos limites de taxa.
Q: Posso misturar proxies da Scrapeless com outros provedores de proxy?
R: Sim. O Crawlee aceita arrays de URLs de proxy diversas, distribuindo automaticamente as requisições. No entanto, gerenciar múltiplos provedores aumenta a complexidade. Soluções de único provedor geralmente são mais confiáveis.
Q: O que devo fazer se um proxy for bloqueado permanentemente?
R: Provedores premium como a Scrapeless rotacionam automaticamente IPs bloqueados. Se os problemas persistirem, entre em contato com o suporte—eles costumam adicionar domínios específicos à lista de permissões ou ajustar o roteamento para resolver bloqueios.
Q: Quantas requisições concorrentes os proxies da Scrapeless conseguem suportar?
R: A infraestrutura da Scrapeless suporta milhares de requisições concorrentes. Limite a concorrência com base na tolerância do seu site-alvo em vez da capacidade do proxy. Teste gradualmente de 10 requisições concorrentes até 100+.
Q: A rotação de proxies no Crawlee é automática ou manual?
R: O Crawlee gerencia a rotação automaticamente quando fornecido com múltiplas URLs de proxy. A estrutura distribui requisições entre proxies sem intervenção do desenvolvedor, simplificando operações em larga escala.
Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.



