🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

पपेटियर का पता लगाए बिना इसका उपयोग कैसे करें

James Thompson
James Thompson

Scraping and Proxy Management Expert

24-Sep-2024

आजकल वेबसाइटें एंटी-बॉट सॉफ्टवेयर का उपयोग करती हैं जो स्क्रैपर्स की पहचान कर सकते हैं। एक सहज स्क्रैपिंग प्रक्रिया के खिलाफ सबसे अच्छा बचाव उपयुक्त मास्किंग तकनीकों का उपयोग है, जैसे कि हेडलेस ब्राउज़र।

जब वेब स्क्रैपिंग करते हैं, तो पपेटियर एक हेडलेस क्रोम है जो क्लॉउडफ्लेयर जैसे एंटी-बॉट्स से बचने के लिए वास्तविक उपयोगकर्ता गतिविधि की नकल कर सकता है। फिर आप इसे कैसे संपर्क करते हैं?

पपेटियर का उपयोग करके स्क्रैप करने के लिए बिना पता लगाए सबसे बड़ी तकनीकों को इस पोस्ट में शामिल किया जाएगा। हालांकि, उससे पहले...

पपेटियर: यह क्या है?

पपेटियर नामक एक नोड.js सॉफ्टवेयर प्रोग्रामेटिक रूप से क्रोमियम हेडलेस ब्राउज़र तक पहुँचने के लिए एक उच्च-स्तरीय एपीआई प्रदान करता है।

यह यार्न या एनपीएम के साथ स्थापित करना आसान है, और इसके मुख्य लाभों में से एक यह है कि यह डेवटूल्स प्रोटोकॉल तक पहुँच सकता है और उसे संशोधित कर सकता है।

क्या एंटी-बॉट पपेटियर की पहचान कर सकते हैं?

वास्तव में, ये एंटी-बॉट सेलेनियम या पपेटियर जैसे हेडलेस ब्राउज़र की पहचान कर सकते हैं।

आइए इसे प्रदर्शित करने के लिए स्क्रैपिंग के त्वरित उदाहरण के रूप में नाउसिक्योर को क्रॉल करने का प्रयास करें। यह वेबसाइट आपको सूचित करती है कि क्या आपने परीक्षणों को सत्यापित करने के लिए बॉट का उपयोग करके सुरक्षा को पारित किया है या नहीं।

इसे पूरा करने के लिए, हम पहले नोड.js स्थापित करेंगे, और एक बार यह समाप्त हो जाने के बाद, हम निम्नलिखित सरल कमांड कोड चलाकर पपेटियर स्थापित करेंगे।

language Copy
npm install puppeteer
language Copy
const puppeteer = require('puppeteer'); 
 
(async () => { 
        // Initiate the browser 
        const browser = await puppeteer.launch(); 
 
        // Create a new page with the default browser context 
        const page = await browser.newPage(); 
 
        // Setting page view 
        await page.setViewport({ width: 1280, height: 720 }); 
 
        // Go to the target website 
        await page.goto('https://nowsecure.nl/'); 
 
        // Wait for security check 
        await page.waitForTimeout(30000); 
 
        // Take screenshot 
        await page.screenshot({ path: 'image.png', fullPage: true }); 
 
        // Closes the browser and all of its pages 
        await browser.close(); 
})();

इस प्रकार, उस उदाहरण में, हमने एक नया ब्राउज़र पृष्ठ बनाया और मूल पपेटियर कॉन्फ़िगरेशन का उपयोग करके लक्षित वेबसाइट पर गए। सुरक्षा जांच के बाद, हम तब एक स्क्रीनशॉट लेते हैं।

पपेटियर पता लगाने को रोकने के 3 तरीके

एक सहज क्रॉलिंग ऑपरेशन प्राप्त करना ज्यादातर पपेटियर बॉट डिटेक्शन से बचकर प्राप्त किया जा सकता है। स्क्रैपिंग करते समय और पपेटियर डिटेक्शन से बचने पर अपने आप को अवरुद्ध होने से बचाने का तरीका यहां बताया गया है:

1. प्रॉक्सी का उपयोग करें

आईपी ट्रैकिंग सबसे लोकप्रिय एंटी-बॉट तकनीकों में से एक है, जिसमें वेबसाइट के अनुरोधों की निगरानी बॉट डिटेक्शन सिस्टम द्वारा की जाती है। इसके अतिरिक्त, एंटी-बॉट पपेटियर स्क्रैपर की पहचान कर सकता है जब एक आईपी जल्दी से बड़ी संख्या में क्वेरी भेजता है।

आप प्रॉक्सी का उपयोग कर सकते हैं, जो उपयोगकर्ताओं और इंटरनेट के बीच एक प्रवेश द्वार के रूप में कार्य करता है, पपेटियर में पता लगाने से बचने के लिए। नतीजतन, प्रॉक्सी सर्वर से अनुरोध प्राप्त करता है और उन्हें प्रतिक्रिया डेटा के साथ हमारे पास भेजता है।

इसे पूरा करने के लिए, हम पपेटियर चला सकते हैं और args तर्क में एक प्रॉक्सी जोड़ सकते हैं जैसा कि नीचे दिखाया गया है:

language Copy
const puppeteer = require('puppeteer'); 
const proxy = ''; // Add your proxy here 
 
(async () => { 
        // Initiate the browser with a proxy 
        const browser = await puppeteer.launch({args: ['--proxy-server=${proxy}']}); 
 
        // ... continue as before 
})();

क्या आप लगातार वेब स्क्रैपिंग ब्लॉक से थक गए हैं?

स्क्रैपलेस: उपलब्ध सर्वश्रेष्ठ ऑल-इन-वन ऑनलाइन स्क्रैपिंग समाधान!

हमारे बुद्धिमान, उच्च-प्रदर्शन प्रॉक्सी रोटेशन के साथ गुमनाम रहें और आईपी-आधारित प्रतिबंधों से बचें:

इसे मुफ्त में आज़माएं!

2. शीर्षलेख

एचटीटीपी अनुरोध के बारे में संदर्भ और मेटाडेटा विवरण शीर्षलेखों में निहित हैं। यह इंगित करता है कि उपकरण एक बॉट है या एक मानक वेब ब्राउज़र। एचटीटीपी अनुरोध में उपयुक्त शीर्षलेख जोड़कर, आप डिस्कवरी को रोकने में मदद कर सकते हैं।

आप उपयोगकर्ता-एजेंट जैसे नए शीर्षलेख जोड़कर पपेटियर की कार्यक्षमता का विस्तार कर सकते हैं, क्योंकि यह डिफ़ॉल्ट रूप से headlessChrome के तहत संचालित होता है। यह व्यापक रूप से उपयोग किया जाने वाला शीर्षलेख, जिसमें एप्लिकेशन, ऑपरेटिंग सिस्टम, विक्रेता और अनुरोध संस्करण शामिल हैं, का उपयोग वेब स्क्रैपिंग में किया जाता है।

language Copy
const puppeteer = require('puppeteer'); 
 
(async () => { 
        const browser = await puppeteer.launch(); 
        const page = await browser.newPage(); 
 
        // Add Headers 
        await page.setExtraHTTPHeaders({ 
                'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36', 
                'upgrade-insecure-requests': '1', 
                'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8', 
                'accept-encoding': 'gzip, deflate, br', 
                'accept-language': 'en-US,en;q=0.9,en;q=0.8' 
        }); 
 
        // ... continue as before 
})();

3. अनुरोधों को सीमित करें

जैसा कि पहले उल्लेख किया गया है, एक उपयोगकर्ता द्वारा भेजे जाने वाले क्वेरी की मात्रा का उपयोग एक एंटी-बॉट द्वारा उनके व्यवहार की निगरानी के लिए किया जा सकता है। इसके अतिरिक्त, क्वेरी की मात्रा को प्रतिबंधित करना और अनुरोधों के बीच रुकना, पपेटियर डिटेक्शन को रोकने में मदद करता है क्योंकि अधिकांश उपयोगकर्ता प्रति सेकंड सैकड़ों अनुरोध नहीं भेजते हैं।

आप .setRequestInterception() फ़ंक्शन का उपयोग करके पपेटियर में प्रदान किए गए संसाधनों को सीमित कर सकते हैं।

language Copy
const puppeteer = require('puppeteer'); 
 
(async () => { 
        const browser = await puppeteer.launch(); 
        const page = await browser.newPage(); 
 
        // Limit requests 
        await page.setRequestInterception(true); 
        page.on('request', async (request) => { 
                if (request.resourceType() == 'image') { 
                        await request.abort(); 
                } else { 
                        await request.continue(); 
                } 
        }); 
 
        // ... continue as before 
})();

हम .setRequestInterception() = true सेट करके चित्रों के लिए पपेटियर के अनुरोधों को अस्वीकार करते हैं। इस तरह हम क्वेरी को प्रतिबंधित करने में सक्षम हैं। क्योंकि लोड करने और प्रतीक्षा करने के लिए कम संसाधन हैं, हम तेज स्क्रैपर भी प्राप्त करेंगे।

निष्कर्ष

पपेटियर के साथ, खोज से बचने के लिए कई तकनीकें हैं; इस पोस्ट में, हम सबसे प्रभावी और सीधे तरीकों पर चर्चा करेंगे।

प्रॉक्सी, हेडर, सीमा अनुरोध और पपेटियर-स्टील्थ का उपयोग करते समय प्रतिबंध हैं, लेकिन वे आपको कार्य पूरा करने में मदद कर सकते हैं। जब परिष्कृत एंटी-बॉट डिफेंस को पार करने की बात आती है तो ये तकनीकें अक्सर कम पड़ जाती हैं।

केवल एक एपीआई अनुरोध के साथ, स्क्रैपलेस आपके लिए एंटी-बॉट बाईपासिंग के सभी पहलुओं को प्रबंधित करता है, जिसमें कैप्चा और हेडलेस ब्राउज़र शामिल हैं जो प्रॉक्सी को घुमाते हैं। इसके अतिरिक्त, शुरुआत करना निःशुल्क है।

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची