पपेटियर का पता लगाए बिना इसका उपयोग कैसे करें

Scraping and Proxy Management Expert
आजकल वेबसाइटें एंटी-बॉट सॉफ्टवेयर का उपयोग करती हैं जो स्क्रैपर्स की पहचान कर सकते हैं। एक सहज स्क्रैपिंग प्रक्रिया के खिलाफ सबसे अच्छा बचाव उपयुक्त मास्किंग तकनीकों का उपयोग है, जैसे कि हेडलेस ब्राउज़र।
जब वेब स्क्रैपिंग करते हैं, तो पपेटियर एक हेडलेस क्रोम है जो क्लॉउडफ्लेयर जैसे एंटी-बॉट्स से बचने के लिए वास्तविक उपयोगकर्ता गतिविधि की नकल कर सकता है। फिर आप इसे कैसे संपर्क करते हैं?
पपेटियर का उपयोग करके स्क्रैप करने के लिए बिना पता लगाए सबसे बड़ी तकनीकों को इस पोस्ट में शामिल किया जाएगा। हालांकि, उससे पहले...
पपेटियर: यह क्या है?
पपेटियर नामक एक नोड.js सॉफ्टवेयर प्रोग्रामेटिक रूप से क्रोमियम हेडलेस ब्राउज़र तक पहुँचने के लिए एक उच्च-स्तरीय एपीआई प्रदान करता है।
यह यार्न या एनपीएम के साथ स्थापित करना आसान है, और इसके मुख्य लाभों में से एक यह है कि यह डेवटूल्स प्रोटोकॉल तक पहुँच सकता है और उसे संशोधित कर सकता है।
क्या एंटी-बॉट पपेटियर की पहचान कर सकते हैं?
वास्तव में, ये एंटी-बॉट सेलेनियम या पपेटियर जैसे हेडलेस ब्राउज़र की पहचान कर सकते हैं।
आइए इसे प्रदर्शित करने के लिए स्क्रैपिंग के त्वरित उदाहरण के रूप में नाउसिक्योर को क्रॉल करने का प्रयास करें। यह वेबसाइट आपको सूचित करती है कि क्या आपने परीक्षणों को सत्यापित करने के लिए बॉट का उपयोग करके सुरक्षा को पारित किया है या नहीं।
इसे पूरा करने के लिए, हम पहले नोड.js स्थापित करेंगे, और एक बार यह समाप्त हो जाने के बाद, हम निम्नलिखित सरल कमांड कोड चलाकर पपेटियर स्थापित करेंगे।
language
npm install puppeteer
language
const puppeteer = require('puppeteer');
(async () => {
// Initiate the browser
const browser = await puppeteer.launch();
// Create a new page with the default browser context
const page = await browser.newPage();
// Setting page view
await page.setViewport({ width: 1280, height: 720 });
// Go to the target website
await page.goto('https://nowsecure.nl/');
// Wait for security check
await page.waitForTimeout(30000);
// Take screenshot
await page.screenshot({ path: 'image.png', fullPage: true });
// Closes the browser and all of its pages
await browser.close();
})();
इस प्रकार, उस उदाहरण में, हमने एक नया ब्राउज़र पृष्ठ बनाया और मूल पपेटियर कॉन्फ़िगरेशन का उपयोग करके लक्षित वेबसाइट पर गए। सुरक्षा जांच के बाद, हम तब एक स्क्रीनशॉट लेते हैं।
पपेटियर पता लगाने को रोकने के 3 तरीके
एक सहज क्रॉलिंग ऑपरेशन प्राप्त करना ज्यादातर पपेटियर बॉट डिटेक्शन से बचकर प्राप्त किया जा सकता है। स्क्रैपिंग करते समय और पपेटियर डिटेक्शन से बचने पर अपने आप को अवरुद्ध होने से बचाने का तरीका यहां बताया गया है:
1. प्रॉक्सी का उपयोग करें
आईपी ट्रैकिंग सबसे लोकप्रिय एंटी-बॉट तकनीकों में से एक है, जिसमें वेबसाइट के अनुरोधों की निगरानी बॉट डिटेक्शन सिस्टम द्वारा की जाती है। इसके अतिरिक्त, एंटी-बॉट पपेटियर स्क्रैपर की पहचान कर सकता है जब एक आईपी जल्दी से बड़ी संख्या में क्वेरी भेजता है।
आप प्रॉक्सी का उपयोग कर सकते हैं, जो उपयोगकर्ताओं और इंटरनेट के बीच एक प्रवेश द्वार के रूप में कार्य करता है, पपेटियर में पता लगाने से बचने के लिए। नतीजतन, प्रॉक्सी सर्वर से अनुरोध प्राप्त करता है और उन्हें प्रतिक्रिया डेटा के साथ हमारे पास भेजता है।
इसे पूरा करने के लिए, हम पपेटियर चला सकते हैं और args
तर्क में एक प्रॉक्सी जोड़ सकते हैं जैसा कि नीचे दिखाया गया है:
language
const puppeteer = require('puppeteer');
const proxy = ''; // Add your proxy here
(async () => {
// Initiate the browser with a proxy
const browser = await puppeteer.launch({args: ['--proxy-server=${proxy}']});
// ... continue as before
})();
क्या आप लगातार वेब स्क्रैपिंग ब्लॉक से थक गए हैं?
स्क्रैपलेस: उपलब्ध सर्वश्रेष्ठ ऑल-इन-वन ऑनलाइन स्क्रैपिंग समाधान!
हमारे बुद्धिमान, उच्च-प्रदर्शन प्रॉक्सी रोटेशन के साथ गुमनाम रहें और आईपी-आधारित प्रतिबंधों से बचें:
इसे मुफ्त में आज़माएं!
2. शीर्षलेख
एचटीटीपी अनुरोध के बारे में संदर्भ और मेटाडेटा विवरण शीर्षलेखों में निहित हैं। यह इंगित करता है कि उपकरण एक बॉट है या एक मानक वेब ब्राउज़र। एचटीटीपी अनुरोध में उपयुक्त शीर्षलेख जोड़कर, आप डिस्कवरी को रोकने में मदद कर सकते हैं।
आप उपयोगकर्ता-एजेंट जैसे नए शीर्षलेख जोड़कर पपेटियर की कार्यक्षमता का विस्तार कर सकते हैं, क्योंकि यह डिफ़ॉल्ट रूप से headlessChrome
के तहत संचालित होता है। यह व्यापक रूप से उपयोग किया जाने वाला शीर्षलेख, जिसमें एप्लिकेशन, ऑपरेटिंग सिस्टम, विक्रेता और अनुरोध संस्करण शामिल हैं, का उपयोग वेब स्क्रैपिंग में किया जाता है।
language
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
// Add Headers
await page.setExtraHTTPHeaders({
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
'upgrade-insecure-requests': '1',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'en-US,en;q=0.9,en;q=0.8'
});
// ... continue as before
})();
3. अनुरोधों को सीमित करें
जैसा कि पहले उल्लेख किया गया है, एक उपयोगकर्ता द्वारा भेजे जाने वाले क्वेरी की मात्रा का उपयोग एक एंटी-बॉट द्वारा उनके व्यवहार की निगरानी के लिए किया जा सकता है। इसके अतिरिक्त, क्वेरी की मात्रा को प्रतिबंधित करना और अनुरोधों के बीच रुकना, पपेटियर डिटेक्शन को रोकने में मदद करता है क्योंकि अधिकांश उपयोगकर्ता प्रति सेकंड सैकड़ों अनुरोध नहीं भेजते हैं।
आप .setRequestInterception()
फ़ंक्शन का उपयोग करके पपेटियर में प्रदान किए गए संसाधनों को सीमित कर सकते हैं।
language
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
// Limit requests
await page.setRequestInterception(true);
page.on('request', async (request) => {
if (request.resourceType() == 'image') {
await request.abort();
} else {
await request.continue();
}
});
// ... continue as before
})();
हम .setRequestInterception() = true
सेट करके चित्रों के लिए पपेटियर के अनुरोधों को अस्वीकार करते हैं। इस तरह हम क्वेरी को प्रतिबंधित करने में सक्षम हैं। क्योंकि लोड करने और प्रतीक्षा करने के लिए कम संसाधन हैं, हम तेज स्क्रैपर भी प्राप्त करेंगे।
निष्कर्ष
पपेटियर के साथ, खोज से बचने के लिए कई तकनीकें हैं; इस पोस्ट में, हम सबसे प्रभावी और सीधे तरीकों पर चर्चा करेंगे।
प्रॉक्सी, हेडर, सीमा अनुरोध और पपेटियर-स्टील्थ का उपयोग करते समय प्रतिबंध हैं, लेकिन वे आपको कार्य पूरा करने में मदद कर सकते हैं। जब परिष्कृत एंटी-बॉट डिफेंस को पार करने की बात आती है तो ये तकनीकें अक्सर कम पड़ जाती हैं।
केवल एक एपीआई अनुरोध के साथ, स्क्रैपलेस आपके लिए एंटी-बॉट बाईपासिंग के सभी पहलुओं को प्रबंधित करता है, जिसमें कैप्चा और हेडलेस ब्राउज़र शामिल हैं जो प्रॉक्सी को घुमाते हैं। इसके अतिरिक्त, शुरुआत करना निःशुल्क है।
स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।