2026 में क्रॉली प्रॉक्सी कैसे सेट करें

Sophia Martinez

Specialist in Anti-Bot Strategies

17-Dec-2025

एक त्वरित नज़र डालें

आईपी ब्लॉक्स से बचने और किसी भी लक्षित वेबसाइट पर अपने वेब स्क्रैपिंग संचालन को विश्वसनीय रूप से स्केल करने के लिए क्रॉली में प्रीमियम आवासीय प्रॉक्सी कॉन्फ़िगर करें।

अभी लॉगिन करें - मुफ्त ट्रायल

मुख्य बातें

क्रॉली एक आधुनिक वेब स्क्रैपिंग फ्रेमवर्क है जो जावास्क्रिप्ट-भारी साइटों के लिए पुपीटर/प्ले राइट पर आधारित है
मुफ्त प्रॉक्सी अप्रत्याशित हैं और एंटी-स्क्रैपिंग सिस्टम द्वारा सक्रिय रूप से ब्लॉक की जाती हैं
प्रीमियम आवासीय प्रॉक्सी वैध आईएसपी-निर्धारित आईपी प्रदान करते हैं जो अधिकांश ब्लॉकिंग तंत्रों को हराते हैं
प्रॉक्सी प्रमाणीकरण के लिए कनेक्शन स्ट्रिंग में एम्बेडेड उपयोगकर्ता नाम और पासवर्ड क्रेडेंशियल की आवश्यकता होती है
उचित प्रॉक्सी कॉन्फ़िगरेशन बड़े पैमाने पर स्क्रैपिंग की अनुमति देता है बिना आईपी प्रतिबंधों या अनुरोध समयबद्धता के

क्रॉली को समझना

क्रॉली एक वेब स्क्रैपिंग फ्रेमवर्क है जो क्रॉलिंग और स्क्रैपिंग कार्यप्रवाह को सरल बनाता है। पुपीटर (Node.js) और प्ले राइट (Python) जैसी हेडलेस ब्राउज़र तकनीकों पर आधारित, क्रॉली ब्राउज़र स्वचालन, सत्र प्रबंधन, और परिणाम संग्रहण को संभालता है। साधारण HTTP पुस्तकालयों के विपरीत, क्रॉली जावास्क्रिप्ट निष्पादित करता है, कुकीज का प्रबंधन करता है, और गतिशील सामग्री के साथ बातचीत करता है—जो आधुनिक वेबसाइटों के लिए महत्वपूर्ण है जो सामग्री को क्लाइंट-साइड पर प्रस्तुत करती हैं।

हालांकि, वेबसाइटें विभिन्न तंत्रों के माध्यम से क्रॉली के डिफ़ॉल्ट व्यवहार का पता लगाते हैं और उसे ब्लॉक करते हैं। मानक उपयोगकर्ता एजेंट क्रॉली स्क्रिप्ट को एंटी-बॉट सिस्टम के लिए पहचानता है। डाटा सेंटर आईपी पते से अनुरोध संदेह को बढ़ाते हैं। दर-सीमा बढ़ने पर जब क्रॉली तेजी से लगातार अनुरोध करता है। प्रॉक्सी इन समस्याओं को हल करती हैं, वैध आवासीय आईपी के बीच अनुरोधों को वितरित करके और सही अनुरोध मूल को छिपाकर।

मुफ्त प्रॉक्सियों की सीमाएं

जनहित में सूचीबद्ध मुफ्त प्रॉक्सी लागत-जागरूक डेवलपर्स के लिए आकर्षक लगती हैं। हालाँकि, वे महत्वपूर्ण नुकसान पेश करते हैं:

अ-संविधानिक उपलब्धता: मुफ्त प्रॉक्सी अक्सर गायब हो जाती हैं या अप्राप्य हो जाती हैं, कार्रवाई के मध्य में स्क्रैपर्स को ब्रेक कर देती हैं
धीमी प्रदर्शन: मुफ्त प्रॉक्सी ट्रैफ़िक को कई मध्यवर्ती सर्वरों के माध्यम से रूट करती हैं, जिससे डेटा संग्रह में देरी होती है
उच्च ब्लॉक दरें: वेबसाइटें ज्ञात मुफ्त प्रॉक्सी आईपी के ब्लॉक सूची बनाए रखती हैं, जिससे वे गंभीर स्क्रैपिंग के लिए अप्रभावी हो जाती हैं
सुरक्षा चिंताएं: मुफ्त प्रॉक्सी ऑपरेटर वैध संचालन की गारंटी नहीं दे सकते—कुछ ट्रैफ़िक को इंटरसेप्ट कर सकते हैं या मैलवेयर इंजेक्ट कर सकते हैं
कोई समर्थन नहीं: जब समस्याएं आती हैं, तो मुफ्त प्रॉक्सी सेवाएं शून्य ग्राहक समर्थन प्रदान करती हैं

बजट के अनुकूल प्रीमियम प्रॉक्सी जैसे स्क्रैपलेस आवासीय प्रॉक्सी जो $0.40/GB से शुरू होती हैं, न्यूनतम लागत में भिन्नता के बावजूद फ्री विकल्पों की तुलना में नाटकीय रूप से बेहतर हैं।

प्रीमियम प्रॉक्सी के लाभ

प्रीमियम आवासीय प्रॉक्सी क्रॉली ऑपरेशनों के लिए वैध लाभ प्रदान करती हैं:

वास्तविक आवासीय आईपी: प्रॉक्सी वास्तविक घरेलू इंटरनेट उपयोगकर्ताओं को आवंटित आईपी पते का उपयोग करती हैं, जिससे वे वास्तविक ट्रैफ़िक से भिन्न नहीं होती
आईपी रोटेशन: स्मार्ट आवंटन एल्गोरिदम स्वचालित रूप से विविध पते के साथ चक्र लगाते हैं, संदिग्ध पैटर्न के प्रति आईपी जमा होने से रोकते हैं
भौगोलिक लक्ष्यीकरण: अपने लक्षित वेबसाइट की भौगोलिक अपेक्षाओं से मेल खाने वाले प्रॉक्सी स्थान चुनें
उच्च अपटाइम: पेशेवर प्रदाता 99.9% से अधिक उपलब्धता की गारंटी देते हैं SLA सुरक्षा के साथ
स्मार्ट रूटिंग: धीमी या ब्लॉक किए गए कनेक्शनों का स्वचालित पता लगाना और बचाव करना

ये क्षमताएँ क्रॉली को एक उपकरण से उत्पादन-ग्रेड स्क्रैपिंग प्लेटफ़ॉर्म में बदल देती हैं, जिसके लिए विस्तृत मैनुअल प्रबंधन की आवश्यकता होती है।

बेसिक क्रॉली प्रॉक्सी कॉन्फ़िगरेशन

क्रॉली प्रॉक्सी सपोर्ट करता है जो क्रॉलर इंस्टेंस को पास किए गए कॉन्फ़िगरेशन ऑब्जेक्ट्स के माध्यम से होता है। मूल संरचना प्रॉक्सी URL की आवश्यकता होती है जिसमें प्रमाणीकरण होता है:

javascript Copy

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    proxyUrls: [
        'http://username:password@proxy.example.com:8080'
    ]
});

await crawler.addRequests([
    { url: 'https://example.com/page1' },
    { url: 'https://example.com/page2' }
]);

await crawler.run();

प्रॉक्सी URL प्रारूप मानक पैटर्न का पालन करता है: protocol://[username:password@]host[:port]

स्क्रैपलेस आवासीय प्रॉक्सियों की सेट अप करना

स्क्रैपलेस आवासीय प्रॉक्सी सरल कॉन्फ़िगरेशन के माध्यम से क्रॉली के साथ सुचारू रूप से एकीकृत होती हैं। ऑटो-जेनरेटेड प्रॉक्सी क्रेडेंशियल प्राप्त करने के लिए अपने खाते के डैशबोर्ड तक पहुँचें:

चरण 1: प्रॉक्सी जनरेटर तक पहुँचें
अपने Scrapeless खाते में लॉग इन करें और Proxy Generator डैशबोर्ड पर जाएं। आपकी ऑटो-जेनरेट की गई आवासीय प्रॉक्सी क्रेडेंशियल्स पृष्ठ के शीर्ष पर दिखाई देती हैं।

चरण 2: क्रेडेंशियल्स कॉन्फ़िगर करें

क्रेडेंशियल प्रबंधन इंटरफ़ेस के माध्यम से अपना उपयोगकर्ता नाम और पासवर्ड सेट करें। Scrapeless विभिन्न अनुप्रयोगों के लिए कई क्रेडेंशियल सेट का समर्थन करता है।

चरण 3: प्रॉक्सी URL प्रारूपित करें

अपने क्रेडेंशियल्स और प्रॉक्सी एंडपॉइंट को एक मान्य प्रॉक्सी URL में संयोजित करें:

Copy

http://username:password@superproxy.scrapeless.com:1337

Scrapeless HTTP (पोर्ट 1337) और HTTPS (पोर्ट 1338) ट्रैफ़िक के लिए अलग-अलग एंडपॉइंट प्रदान करता है।

चरण 4: Crawlee के साथ एकीकृत करें

प्रॉक्सी URL को अपने Crawlee कॉन्फ़िगरेशन में लागू करें:

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337';

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    useSessionPool: true
});

await crawler.addRequests([
    { url: 'https://target-website.com' }
]);

await crawler.run();

उन्नत प्रॉक्सी कॉन्फ़िगरेशन

मल्टीपल प्रॉक्सी URLs: Crawlee प्रॉक्सी URLs के एरे को स्वीकार करता है, स्वचालित रूप से कई प्रॉक्सियों के बीच अनुरोधों को वितरित करता है:

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [
        'http://user1:pass1@proxy1.scrapeless.com:1337',
        'http://user2:pass2@proxy2.scrapeless.com:1337',
        'http://user3:pass3@proxy3.scrapeless.com:1337'
    ]
});

गतिशील प्रॉक्सी चयन: जटिल स्क्रैपिंग ऑपरेशनों के लिए, Scrapeless बुद्धिमान प्रॉक्सी चयन प्रदान करता है जो लक्षित वेबसाइट की विशेषताओं के आधार पर IP आवंटन को अनुकूलित करता है।

भौगोलिक लक्ष्यीकरण: URL पैरामीटर के माध्यम से प्रॉक्सी भू-स्थान निर्दिष्ट करें:

javascript Copy

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337?country=US&state=NY';

यह पैरामीटर सभी अनुरोधों को न्यूयॉर्क में प्रॉक्सियों के माध्यम से मजबूर करता है, यह सुनिश्चित करता है कि स्थानीय उपयुक्त प्रतिक्रियाएं प्राप्त हों।

प्रमाणीकरण और सत्रों को संभालना

कुछ वेबसाइटों के लिए लॉगिन क्रेडेंशियल्स की आवश्यकता होती है। Crawlee सत्र प्रबंधन के माध्यम से प्रमाणीकरण को संभालता है। प्रॉक्सी रोटेशन के साथ मिलकर, सत्र विभिन्न IPs से अनुरोधों के बीच लॉगिन स्थिति बनाए रखते हैं:

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337'],
    useSessionPool: true,
    sessionPoolOptions: {
        maxPoolSize: 50
    }
});

crawler.addPostResponseHandler(async ({ page, session }) => {
    // प्रत्येक सत्र अपनी कुकीज़ और प्रमाणीकरण स्थिति बनाए रखता है
    if (session.isValid) {
        // प्रमाणीकरण प्राप्त पृष्ठ को प्रोसेस करें
    }
});

Crawlee का सत्र पूल प्रत्येक सत्र के लिए कुकीज़ और स्थिति को अलग करता है, यह सुनिश्चित करते हुए कि IP बदले जाने पर प्रमाणीकरण बाधित नहीं होता है।

सामान्य प्रॉक्सी समस्याओं से बचना

प्रॉक्सी टाइमआउट: यदि अनुरोध अक्सर टाइमआउट होते हैं, तो टाइमआउट मान बढ़ाएं:

javascript Copy

const crawler = new PuppeteerCrawler({
    navigationTimeoutSecs: 30,
    proxyUrls: [proxyUrl]
});

कनेक्शन अस्वीकृत: सुनिश्चित करें कि क्रेडेंशियल्स आपके प्रॉक्सी प्रदाता की आवश्यकताओं से मेल खाते हैं। टाइपोग्राफ़िकल त्रुटियाँ या प्रारूप की गलतियाँ तत्काल कनेक्शन विफलता का कारण बनेंगी।

प्रॉक्सियों के बावजूद दर सीमित करना: प्रॉक्सी रोटेशन के साथ भी, अत्यधिक अनुरोध दरें अवरुद्ध होने का कारण बनती हैं। अनुरोध में रुकावट लागू करें:

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    handlePageTimeoutSecs: 60,
    preNavigationHooks: [
        async ({ request }) => {
            await page.waitForTimeout(Math.random() * 3000)
        }
    ]
});

अवरोधित प्रॉक्सियां: यदि व्यक्तिगत Scrapeless प्रॉक्सियों को अवरुद्ध कर दिया गया है, तो सेवा स्वचालित रूप से विभिन्न पते पर रोटेट करती है। यदि अवरोध बना रहता है, तो समर्थन से संपर्क करें।

समग्र समाधान: Scrapeless ब्राउज़र

अधिकतम विश्वसनीयता के लिए, Scrapeless Browser प्रॉक्सी रोटेशन, JavaScript रेंडरिंग और एंटी-बॉट बायपास के साथ Puppeteer के लिए ड्रॉप-इन प्रतिस्थापन प्रदान करता है:

नि:शुल्क प्रयास करें >

ब्राउज़र प्रॉक्सी कॉन्फ़िगरेशन को स्वचालित रूप से संभालता है, मैनुअल सेटअप को समाप्त करता है जबकि संरक्षित वेबसाइटों के खिलाफ उच्च सफलता दर प्रदान करता है।

अपनी कॉन्फ़िगरेशन का परीक्षण करें

लौटाई गई आईपी पतों की जाँच करके प्रॉक्सी सेटअप सुनिश्चित करें:

javascript Copy

```hi
const { PuppeteerCrawler } = require('crawlee');

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337']
});

crawler.addPostResponseHandler(async ({ page }) => {
    const ipInfo = await page.evaluate(() => {
        return fetch('https://httpbin.io/ip').then(r => r.json());
    });
    console.log('Request IP:', ipInfo.origin);
});

यदि लौटाया गया आईपी आपके कंप्यूटर के आईपी से भिन्न है, तो प्रॉक्सी सही ढंग से काम कर रही है। यदि यह मेल खाता है, तो अनुरोध प्रॉक्सी को बायपास कर रहे हैं—प्रमाण पत्र और कनेक्शन विवरण की जांच करें।

प्रदर्शन अनुकूलन

सही ढंग से कॉन्फ़िगर की गई प्रॉक्सियाँ उच्च प्रदर्शन स्क्रैपिंग को सक्षम बनाती हैं:

समानांतरता: प्रॉक्सी रोटेशन का उपयोग करते समय 50+ समानांतर अनुरोध चलाएँ
गति: प्रीमियम प्रॉक्सियों के साथ अनुरोध औसत 1-2 सेकंड में होते हैं जबकि मुफ्त प्रॉक्सियों के साथ 5-10 सेकंड लगते हैं
भरोसेमंदता: 99%+ सफलता दर जबकि मुफ्त या मैनुअल प्रॉक्सी प्रबंधन के लिए 50-70%

ये सुधार तेजी से डेटा संग्रह और संचालन की लागत को कम करने में सीधे आसान अनुवाद करते हैं, बावजूद प्रॉक्सी खर्चों के।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: क्या मुझे प्रत्येक Crawlee इंस्टेंस के लिए अलग-अलग प्रॉक्सी प्रमाण पत्र की आवश्यकता है?

उत्तर: नहीं। एकल प्रॉक्सी प्रमाण पत्र अनलिमिटेड Crawlee इंस्टेंस में काम करता है। हालाँकि, एक साथ कई बड़े पैमाने पर स्क्रैपर्स चलाना स्वतंत्र दर-सीमा प्रबंधन को सक्षम करने के लिए अलग-अलग प्रमाण पत्र से लाभान्वित हो सकता है।

प्रश्न: क्या मैं Scrapeless प्रॉक्सियों को अन्य प्रॉक्सी प्रदाताओं के साथ मिला सकता हूँ?

उत्तर: हाँ। Crawlee विविध प्रॉक्सी यूआरएल के एरे को स्वीकार करता है, स्वचालित रूप से अनुरोधों का वितरण करता है। हालाँकि, कई प्रदाताओं का प्रबंधन जटिलता बढ़ाता है। एकल प्रदाता समाधान आमतौर पर अधिक विश्वसनीय साबित होते हैं।

प्रश्न: अगर कोई प्रॉक्सी स्थायी रूप से अवरोधित हो जाता है तो मुझे क्या करना चाहिए?

उत्तर: प्रीमियम प्रदाता जैसे Scrapeless स्वचालित रूप से अवरोधित आईपी से दूर जाकर रोटेट करते हैं। यदि समस्याएँ बनी रहती हैं, तो सहायता से संपर्क करें—वे अक्सर विशिष्ट डोमेन को व्हाइटलिस्ट करते हैं या अवरोधों को हल करने के लिए मार्ग को समायोजित करते हैं।

प्रश्न: Scrapeless प्रॉक्सियाँ कितने समानांतर अनुरोध संभाल सकती हैं?

उत्तर: Scrapeless अवसंरचना हजारों समानांतर अनुरोधों का समर्थन करती है। आपकी लक्षित वेबसाइट की सहिष्णुता के आधार पर समांतरता की सीमा निर्धारित करें, न कि प्रॉक्सी क्षमता के आधार पर। 10 समानांतर से धीरे-धीरे 100+ तक का परीक्षण करें।

प्रश्न: क्या Crawlee में प्रॉक्सी रोटेशन स्वचालित है या मैन्युअल?

उत्तर: Crawlee कई प्रॉक्सी यूआरएल प्रदान करने पर स्वचालित रूप से रोटेशन संभालता है। ढांचा डेवलपर के हस्तक्षेप के बिना प्रॉक्सियों के बीच अनुरोध वितरित करता है, बड़े पैमाने पर संचालन को सरल बनाता है।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

Crawl4AI को Scrapeless Cloud ब्राउजर के साथ कैसे बढ़ाएं

Crawl4AI को Scrapeless Cloud Browser के साथ कुशल, बड़े पैमाने पर वेब स्क्रैपिंग के लिए एकीकृत करना सीखें। स्वचालित प्रॉक्सी, कस्टम फ़िंगरप्रिंट, सत्र पुन: उपयोग, और वास्तविक समय में डिबगिंग को अनलॉक करें।

Emily Chen

20-Oct-2025

क्रॉल4एआई को स्क्रेपलेस क्लाउड ब्राउज़र के साथ कैसे बढ़ाएं

स्क्रेपलेस MCP सर्वर आधिकारिक रूप से लाइव है! अपना अंतिम एआई-वेब कनेक्टर बनाएं

स्क्रेपलेस MCP सर्वर कैसे LLMs को वास्तविक समय में वेब ब्राउज़िंग और स्क्रेपिंग क्षमताएं देता है, यह जानें। सीखें कि कैसे AI एजेंट बनाएँ जो निर्बाध रूप से गतिशील वेब सामग्री को खोजें, निकालें और बातचीत करें।

Michael Lee

17-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए कुशल और अनुपालन शिपमेंट डेटा स्क्रैपिंग

स्क्रेपलेस USPS टूल का उपयोग करके ERP, OMS, और SaaS प्लेटफॉर्म के लिए दक्षता और अनुपालन के साथ संरचित, वास्तविक समय की ट्रैकिंग डेटा प्राप्त करना सीखें।

Emily Chen

02-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए प्रभावी और अनुपालन शिपमेंट डेटा स्क्रैपिंग

सूची