2026 में क्रॉली प्रॉक्सी कैसे सेट करें
Specialist in Anti-Bot Strategies
आईपी ब्लॉक्स से बचने और किसी भी लक्षित वेबसाइट पर अपने वेब स्क्रैपिंग संचालन को विश्वसनीय रूप से स्केल करने के लिए क्रॉली में प्रीमियम आवासीय प्रॉक्सी कॉन्फ़िगर करें।
मुख्य बातें
- क्रॉली एक आधुनिक वेब स्क्रैपिंग फ्रेमवर्क है जो जावास्क्रिप्ट-भारी साइटों के लिए पुपीटर/प्ले राइट पर आधारित है
- मुफ्त प्रॉक्सी अप्रत्याशित हैं और एंटी-स्क्रैपिंग सिस्टम द्वारा सक्रिय रूप से ब्लॉक की जाती हैं
- प्रीमियम आवासीय प्रॉक्सी वैध आईएसपी-निर्धारित आईपी प्रदान करते हैं जो अधिकांश ब्लॉकिंग तंत्रों को हराते हैं
- प्रॉक्सी प्रमाणीकरण के लिए कनेक्शन स्ट्रिंग में एम्बेडेड उपयोगकर्ता नाम और पासवर्ड क्रेडेंशियल की आवश्यकता होती है
- उचित प्रॉक्सी कॉन्फ़िगरेशन बड़े पैमाने पर स्क्रैपिंग की अनुमति देता है बिना आईपी प्रतिबंधों या अनुरोध समयबद्धता के
क्रॉली को समझना
क्रॉली एक वेब स्क्रैपिंग फ्रेमवर्क है जो क्रॉलिंग और स्क्रैपिंग कार्यप्रवाह को सरल बनाता है। पुपीटर (Node.js) और प्ले राइट (Python) जैसी हेडलेस ब्राउज़र तकनीकों पर आधारित, क्रॉली ब्राउज़र स्वचालन, सत्र प्रबंधन, और परिणाम संग्रहण को संभालता है। साधारण HTTP पुस्तकालयों के विपरीत, क्रॉली जावास्क्रिप्ट निष्पादित करता है, कुकीज का प्रबंधन करता है, और गतिशील सामग्री के साथ बातचीत करता है—जो आधुनिक वेबसाइटों के लिए महत्वपूर्ण है जो सामग्री को क्लाइंट-साइड पर प्रस्तुत करती हैं।
हालांकि, वेबसाइटें विभिन्न तंत्रों के माध्यम से क्रॉली के डिफ़ॉल्ट व्यवहार का पता लगाते हैं और उसे ब्लॉक करते हैं। मानक उपयोगकर्ता एजेंट क्रॉली स्क्रिप्ट को एंटी-बॉट सिस्टम के लिए पहचानता है। डाटा सेंटर आईपी पते से अनुरोध संदेह को बढ़ाते हैं। दर-सीमा बढ़ने पर जब क्रॉली तेजी से लगातार अनुरोध करता है। प्रॉक्सी इन समस्याओं को हल करती हैं, वैध आवासीय आईपी के बीच अनुरोधों को वितरित करके और सही अनुरोध मूल को छिपाकर।
मुफ्त प्रॉक्सियों की सीमाएं
जनहित में सूचीबद्ध मुफ्त प्रॉक्सी लागत-जागरूक डेवलपर्स के लिए आकर्षक लगती हैं। हालाँकि, वे महत्वपूर्ण नुकसान पेश करते हैं:
अ-संविधानिक उपलब्धता: मुफ्त प्रॉक्सी अक्सर गायब हो जाती हैं या अप्राप्य हो जाती हैं, कार्रवाई के मध्य में स्क्रैपर्स को ब्रेक कर देती हैं
धीमी प्रदर्शन: मुफ्त प्रॉक्सी ट्रैफ़िक को कई मध्यवर्ती सर्वरों के माध्यम से रूट करती हैं, जिससे डेटा संग्रह में देरी होती है
उच्च ब्लॉक दरें: वेबसाइटें ज्ञात मुफ्त प्रॉक्सी आईपी के ब्लॉक सूची बनाए रखती हैं, जिससे वे गंभीर स्क्रैपिंग के लिए अप्रभावी हो जाती हैं
सुरक्षा चिंताएं: मुफ्त प्रॉक्सी ऑपरेटर वैध संचालन की गारंटी नहीं दे सकते—कुछ ट्रैफ़िक को इंटरसेप्ट कर सकते हैं या मैलवेयर इंजेक्ट कर सकते हैं
कोई समर्थन नहीं: जब समस्याएं आती हैं, तो मुफ्त प्रॉक्सी सेवाएं शून्य ग्राहक समर्थन प्रदान करती हैं
बजट के अनुकूल प्रीमियम प्रॉक्सी जैसे स्क्रैपलेस आवासीय प्रॉक्सी जो $0.40/GB से शुरू होती हैं, न्यूनतम लागत में भिन्नता के बावजूद फ्री विकल्पों की तुलना में नाटकीय रूप से बेहतर हैं।
प्रीमियम प्रॉक्सी के लाभ
प्रीमियम आवासीय प्रॉक्सी क्रॉली ऑपरेशनों के लिए वैध लाभ प्रदान करती हैं:
वास्तविक आवासीय आईपी: प्रॉक्सी वास्तविक घरेलू इंटरनेट उपयोगकर्ताओं को आवंटित आईपी पते का उपयोग करती हैं, जिससे वे वास्तविक ट्रैफ़िक से भिन्न नहीं होती
आईपी रोटेशन: स्मार्ट आवंटन एल्गोरिदम स्वचालित रूप से विविध पते के साथ चक्र लगाते हैं, संदिग्ध पैटर्न के प्रति आईपी जमा होने से रोकते हैं
भौगोलिक लक्ष्यीकरण: अपने लक्षित वेबसाइट की भौगोलिक अपेक्षाओं से मेल खाने वाले प्रॉक्सी स्थान चुनें
उच्च अपटाइम: पेशेवर प्रदाता 99.9% से अधिक उपलब्धता की गारंटी देते हैं SLA सुरक्षा के साथ
स्मार्ट रूटिंग: धीमी या ब्लॉक किए गए कनेक्शनों का स्वचालित पता लगाना और बचाव करना
ये क्षमताएँ क्रॉली को एक उपकरण से उत्पादन-ग्रेड स्क्रैपिंग प्लेटफ़ॉर्म में बदल देती हैं, जिसके लिए विस्तृत मैनुअल प्रबंधन की आवश्यकता होती है।
बेसिक क्रॉली प्रॉक्सी कॉन्फ़िगरेशन
क्रॉली प्रॉक्सी सपोर्ट करता है जो क्रॉलर इंस्टेंस को पास किए गए कॉन्फ़िगरेशन ऑब्जेक्ट्स के माध्यम से होता है। मूल संरचना प्रॉक्सी URL की आवश्यकता होती है जिसमें प्रमाणीकरण होता है:
javascript
import { CheerioCrawler } from 'crawlee';
const crawler = new CheerioCrawler({
proxyUrls: [
'http://username:password@proxy.example.com:8080'
]
});
await crawler.addRequests([
{ url: 'https://example.com/page1' },
{ url: 'https://example.com/page2' }
]);
await crawler.run();
प्रॉक्सी URL प्रारूप मानक पैटर्न का पालन करता है: protocol://[username:password@]host[:port]
स्क्रैपलेस आवासीय प्रॉक्सियों की सेट अप करना
स्क्रैपलेस आवासीय प्रॉक्सी सरल कॉन्फ़िगरेशन के माध्यम से क्रॉली के साथ सुचारू रूप से एकीकृत होती हैं। ऑटो-जेनरेटेड प्रॉक्सी क्रेडेंशियल प्राप्त करने के लिए अपने खाते के डैशबोर्ड तक पहुँचें:
चरण 1: प्रॉक्सी जनरेटर तक पहुँचें
अपने Scrapeless खाते में लॉग इन करें और Proxy Generator डैशबोर्ड पर जाएं। आपकी ऑटो-जेनरेट की गई आवासीय प्रॉक्सी क्रेडेंशियल्स पृष्ठ के शीर्ष पर दिखाई देती हैं।
चरण 2: क्रेडेंशियल्स कॉन्फ़िगर करें
क्रेडेंशियल प्रबंधन इंटरफ़ेस के माध्यम से अपना उपयोगकर्ता नाम और पासवर्ड सेट करें। Scrapeless विभिन्न अनुप्रयोगों के लिए कई क्रेडेंशियल सेट का समर्थन करता है।
चरण 3: प्रॉक्सी URL प्रारूपित करें
अपने क्रेडेंशियल्स और प्रॉक्सी एंडपॉइंट को एक मान्य प्रॉक्सी URL में संयोजित करें:
http://username:password@superproxy.scrapeless.com:1337
Scrapeless HTTP (पोर्ट 1337) और HTTPS (पोर्ट 1338) ट्रैफ़िक के लिए अलग-अलग एंडपॉइंट प्रदान करता है।
चरण 4: Crawlee के साथ एकीकृत करें
प्रॉक्सी URL को अपने Crawlee कॉन्फ़िगरेशन में लागू करें:
javascript
import { PuppeteerCrawler } from 'crawlee';
const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337';
const crawler = new PuppeteerCrawler({
proxyUrls: [proxyUrl],
useSessionPool: true
});
await crawler.addRequests([
{ url: 'https://target-website.com' }
]);
await crawler.run();
उन्नत प्रॉक्सी कॉन्फ़िगरेशन
मल्टीपल प्रॉक्सी URLs: Crawlee प्रॉक्सी URLs के एरे को स्वीकार करता है, स्वचालित रूप से कई प्रॉक्सियों के बीच अनुरोधों को वितरित करता है:
javascript
const crawler = new PuppeteerCrawler({
proxyUrls: [
'http://user1:pass1@proxy1.scrapeless.com:1337',
'http://user2:pass2@proxy2.scrapeless.com:1337',
'http://user3:pass3@proxy3.scrapeless.com:1337'
]
});
गतिशील प्रॉक्सी चयन: जटिल स्क्रैपिंग ऑपरेशनों के लिए, Scrapeless बुद्धिमान प्रॉक्सी चयन प्रदान करता है जो लक्षित वेबसाइट की विशेषताओं के आधार पर IP आवंटन को अनुकूलित करता है।
भौगोलिक लक्ष्यीकरण: URL पैरामीटर के माध्यम से प्रॉक्सी भू-स्थान निर्दिष्ट करें:
javascript
const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337?country=US&state=NY';
यह पैरामीटर सभी अनुरोधों को न्यूयॉर्क में प्रॉक्सियों के माध्यम से मजबूर करता है, यह सुनिश्चित करता है कि स्थानीय उपयुक्त प्रतिक्रियाएं प्राप्त हों।
प्रमाणीकरण और सत्रों को संभालना
कुछ वेबसाइटों के लिए लॉगिन क्रेडेंशियल्स की आवश्यकता होती है। Crawlee सत्र प्रबंधन के माध्यम से प्रमाणीकरण को संभालता है। प्रॉक्सी रोटेशन के साथ मिलकर, सत्र विभिन्न IPs से अनुरोधों के बीच लॉगिन स्थिति बनाए रखते हैं:
javascript
import { PuppeteerCrawler } from 'crawlee';
const crawler = new PuppeteerCrawler({
proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337'],
useSessionPool: true,
sessionPoolOptions: {
maxPoolSize: 50
}
});
crawler.addPostResponseHandler(async ({ page, session }) => {
// प्रत्येक सत्र अपनी कुकीज़ और प्रमाणीकरण स्थिति बनाए रखता है
if (session.isValid) {
// प्रमाणीकरण प्राप्त पृष्ठ को प्रोसेस करें
}
});
Crawlee का सत्र पूल प्रत्येक सत्र के लिए कुकीज़ और स्थिति को अलग करता है, यह सुनिश्चित करते हुए कि IP बदले जाने पर प्रमाणीकरण बाधित नहीं होता है।
सामान्य प्रॉक्सी समस्याओं से बचना
प्रॉक्सी टाइमआउट: यदि अनुरोध अक्सर टाइमआउट होते हैं, तो टाइमआउट मान बढ़ाएं:
javascript
const crawler = new PuppeteerCrawler({
navigationTimeoutSecs: 30,
proxyUrls: [proxyUrl]
});
कनेक्शन अस्वीकृत: सुनिश्चित करें कि क्रेडेंशियल्स आपके प्रॉक्सी प्रदाता की आवश्यकताओं से मेल खाते हैं। टाइपोग्राफ़िकल त्रुटियाँ या प्रारूप की गलतियाँ तत्काल कनेक्शन विफलता का कारण बनेंगी।
प्रॉक्सियों के बावजूद दर सीमित करना: प्रॉक्सी रोटेशन के साथ भी, अत्यधिक अनुरोध दरें अवरुद्ध होने का कारण बनती हैं। अनुरोध में रुकावट लागू करें:
javascript
const crawler = new PuppeteerCrawler({
proxyUrls: [proxyUrl],
handlePageTimeoutSecs: 60,
preNavigationHooks: [
async ({ request }) => {
await page.waitForTimeout(Math.random() * 3000)
}
]
});
अवरोधित प्रॉक्सियां: यदि व्यक्तिगत Scrapeless प्रॉक्सियों को अवरुद्ध कर दिया गया है, तो सेवा स्वचालित रूप से विभिन्न पते पर रोटेट करती है। यदि अवरोध बना रहता है, तो समर्थन से संपर्क करें।
समग्र समाधान: Scrapeless ब्राउज़र
अधिकतम विश्वसनीयता के लिए, Scrapeless Browser प्रॉक्सी रोटेशन, JavaScript रेंडरिंग और एंटी-बॉट बायपास के साथ Puppeteer के लिए ड्रॉप-इन प्रतिस्थापन प्रदान करता है:
ब्राउज़र प्रॉक्सी कॉन्फ़िगरेशन को स्वचालित रूप से संभालता है, मैनुअल सेटअप को समाप्त करता है जबकि संरक्षित वेबसाइटों के खिलाफ उच्च सफलता दर प्रदान करता है।
अपनी कॉन्फ़िगरेशन का परीक्षण करें
लौटाई गई आईपी पतों की जाँच करके प्रॉक्सी सेटअप सुनिश्चित करें:
javascript
```hi
const { PuppeteerCrawler } = require('crawlee');
const crawler = new PuppeteerCrawler({
proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337']
});
crawler.addPostResponseHandler(async ({ page }) => {
const ipInfo = await page.evaluate(() => {
return fetch('https://httpbin.io/ip').then(r => r.json());
});
console.log('Request IP:', ipInfo.origin);
});
यदि लौटाया गया आईपी आपके कंप्यूटर के आईपी से भिन्न है, तो प्रॉक्सी सही ढंग से काम कर रही है। यदि यह मेल खाता है, तो अनुरोध प्रॉक्सी को बायपास कर रहे हैं—प्रमाण पत्र और कनेक्शन विवरण की जांच करें।
प्रदर्शन अनुकूलन
सही ढंग से कॉन्फ़िगर की गई प्रॉक्सियाँ उच्च प्रदर्शन स्क्रैपिंग को सक्षम बनाती हैं:
- समानांतरता: प्रॉक्सी रोटेशन का उपयोग करते समय 50+ समानांतर अनुरोध चलाएँ
- गति: प्रीमियम प्रॉक्सियों के साथ अनुरोध औसत 1-2 सेकंड में होते हैं जबकि मुफ्त प्रॉक्सियों के साथ 5-10 सेकंड लगते हैं
- भरोसेमंदता: 99%+ सफलता दर जबकि मुफ्त या मैनुअल प्रॉक्सी प्रबंधन के लिए 50-70%
ये सुधार तेजी से डेटा संग्रह और संचालन की लागत को कम करने में सीधे आसान अनुवाद करते हैं, बावजूद प्रॉक्सी खर्चों के।
अक्सर पूछे जाने वाले प्रश्न
प्रश्न: क्या मुझे प्रत्येक Crawlee इंस्टेंस के लिए अलग-अलग प्रॉक्सी प्रमाण पत्र की आवश्यकता है?
उत्तर: नहीं। एकल प्रॉक्सी प्रमाण पत्र अनलिमिटेड Crawlee इंस्टेंस में काम करता है। हालाँकि, एक साथ कई बड़े पैमाने पर स्क्रैपर्स चलाना स्वतंत्र दर-सीमा प्रबंधन को सक्षम करने के लिए अलग-अलग प्रमाण पत्र से लाभान्वित हो सकता है।
प्रश्न: क्या मैं Scrapeless प्रॉक्सियों को अन्य प्रॉक्सी प्रदाताओं के साथ मिला सकता हूँ?
उत्तर: हाँ। Crawlee विविध प्रॉक्सी यूआरएल के एरे को स्वीकार करता है, स्वचालित रूप से अनुरोधों का वितरण करता है। हालाँकि, कई प्रदाताओं का प्रबंधन जटिलता बढ़ाता है। एकल प्रदाता समाधान आमतौर पर अधिक विश्वसनीय साबित होते हैं।
प्रश्न: अगर कोई प्रॉक्सी स्थायी रूप से अवरोधित हो जाता है तो मुझे क्या करना चाहिए?
उत्तर: प्रीमियम प्रदाता जैसे Scrapeless स्वचालित रूप से अवरोधित आईपी से दूर जाकर रोटेट करते हैं। यदि समस्याएँ बनी रहती हैं, तो सहायता से संपर्क करें—वे अक्सर विशिष्ट डोमेन को व्हाइटलिस्ट करते हैं या अवरोधों को हल करने के लिए मार्ग को समायोजित करते हैं।
प्रश्न: Scrapeless प्रॉक्सियाँ कितने समानांतर अनुरोध संभाल सकती हैं?
उत्तर: Scrapeless अवसंरचना हजारों समानांतर अनुरोधों का समर्थन करती है। आपकी लक्षित वेबसाइट की सहिष्णुता के आधार पर समांतरता की सीमा निर्धारित करें, न कि प्रॉक्सी क्षमता के आधार पर। 10 समानांतर से धीरे-धीरे 100+ तक का परीक्षण करें।
प्रश्न: क्या Crawlee में प्रॉक्सी रोटेशन स्वचालित है या मैन्युअल?
उत्तर: Crawlee कई प्रॉक्सी यूआरएल प्रदान करने पर स्वचालित रूप से रोटेशन संभालता है। ढांचा डेवलपर के हस्तक्षेप के बिना प्रॉक्सियों के बीच अनुरोध वितरित करता है, बड़े पैमाने पर संचालन को सरल बनाता है।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



