🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

Puppeteer का उपयोग करके CAPTCHA को कैसे बायपास करें

Ava Wilson
Ava Wilson

Expert in Web Scraping Technologies

26-Sep-2024

वेबसाइटों से बड़े पैमाने पर डेटा संग्रह और विश्लेषण के लिए स्वचालित वेब स्क्रैपिंग और क्रॉलिंग आवश्यक हैं। हालांकि, कैप्चा जैसे एंटी-बॉट टूल के कारण स्वचालित ऑनलाइन पहुंच तेजी से कठिन होती जा रही है।

सुरक्षा सावधानी के तौर पर, बहुत सी वेबसाइटें अक्सर कैप्चा लोड करती हैं या स्क्रीन ब्लॉक करती हैं। आपका स्वचालित स्क्रैपर लक्षित वेबसाइट पर ब्लॉक स्क्रीन या कैप्चा लोड करने से बचने की संभावना है यदि वह किसी तरह वेबसाइट के लिए मानव दिख सकता है। नतीजतन, आपका स्क्रैपर स्क्रैपिंग कार्य पूरा कर सकता है और कैप्चा और रीक्याप्चा चुनौतियों से बच सकता है।

लेकिन वेबसाइटें स्क्रैपर को मानव कैसे दिखा सकती हैं? आइए जांच करें।

ट्यूटोरियल: कैप्चा के आसपास जाने के लिए पुपेटियर का उपयोग करना

आपको ब्लॉक की गई वेबसाइटों से सामग्री तक पहुँचने के लिए कैप्चा को लोड होने से रोकने का तरीका पता लगाना होगा। पुपेटियर इसमें हमारी मदद कर सकता है। यह एक Node.JS पैकेज है जो क्रोम और क्रोमियम के डेवटूल्स प्रोटोकॉल प्रबंधन के लिए एक आसान उपयोग API प्रदान करता है। पुपेटियर के सामान्य हेडलेस मोड का उपयोग करने के बजाय, आप इसे पूर्ण क्रोम/क्रोमियम मोड में चलाने के लिए सेट कर सकते हैं।

पुपेटियर खुद से पर्याप्त क्यों नहीं है?

क्या होगा यदि आप किसी कैप्चा द्वारा सुरक्षित वेबसाइट तक स्वचालित पहुंच का प्रयास करने के लिए पुपेटियर का उपयोग खुद से करते हैं? लक्षित वेबसाइट आपको स्वचालित पहुंच की सूचना देती है और एक ब्लॉक स्क्रीन या कैप्चा परीक्षण प्रदर्शित करती है।

आइए इसे सत्यापित करने के लिए इन प्रक्रियाओं का उपयोग करें:

आपके कंप्यूटर पर Node.JS स्थापित होना चाहिए। नए बनाए गए Node.JS प्रोजेक्ट में पुपेटियर को इंस्टॉल करने के लिए निम्न npm कमांड का उपयोग करें:

language Copy
npm i puppeteer

आपके द्वारा बनाई गई Node.JS फ़ाइल में पुपेटियर लाइब्रेरी जोड़ें।

language Copy
const puppeteer = require('puppeteer');

एक नया पृष्ठ और एक हेडलेस ब्राउज़र इंस्टेंस बनाने के लिए निम्न कोड का उपयोग करें:

language Copy
(async () => {
  // Create a browser instance
  const browserObj = await puppeteer.launch();

  // Create a new page
  const newpage = await browserObj.newPage();

चूंकि स्नैपशॉट लेने के लिए डेस्कटॉप डिवाइस की आवश्यकता होती है, इसलिए हम व्यूपोर्ट साइज़ को समायोजित करने के लिए निम्न कोड का उपयोग कर सकते हैं:

language Copy
  // Set the width and height of viewport
  await newpage.setViewport({ width: 1920, height: 1080 });

setViewPort() फ़ंक्शन के माध्यम से वेबपेज का आकार सेट किया जाता है। आप इसे अपने डिवाइस के विनिर्देशों के अनुसार समायोजित कर सकते हैं।

इसके बाद, किसी ऐसी वेबसाइट के URL पर जाएँ जिसे आप मानते हैं कि कैप्चा द्वारा सुरक्षित है, और उसका स्क्रीनशॉट लें।

कैप्चा के आसपास जाने के लिए पुपेटियर-स्टील्थ का उपयोग किया जाता है

पुपेटियर के साथ स्टील्थ ऐडऑन को इंस्टॉल करने से आप इसकी क्षमताओं को बढ़ा पाएंगे। अपनी क्षमताओं की सरणी के साथ, स्टील्थ प्लगइन सुरक्षित वेबसाइटों द्वारा कृत्रिम पहुंच प्रयासों की पहचान करने के लिए उपयोग की जाने वाली अधिकांश तकनीकों को संबोधित कर सकता है।

आपका पुपेटियर का स्वचालित हेडलेस एक्सेस इतना "मानव" हो सकता है कि कई वेबसाइटें अंतर नहीं बता पाएंगी। इसलिए, कुछ वेबसाइटों के लिए, स्टील्थ-आधारित विज़िट के कारण कैप्चा लोड नहीं हो सकता है। इस प्रकार, आप अपने पुपेटियर स्क्रिप्ट को स्वचालित रूप से चलाने और कैप्चा के पीछे छिपे डेटा तक पहुँचने की अनुमति दे सकते हैं।

नोट: इस ट्यूटोरियल में सभी बाईपास तकनीकों का प्रदर्शन केवल शैक्षिक उद्देश्यों के लिए है।

क्या आप कैप्चा और निरंतर वेब स्क्रैपिंग ब्लॉक से थक गए हैं?

स्क्रैपलेस: उपलब्ध सर्वश्रेष्ठ ऑल-इन-वन ऑनलाइन स्क्रैपिंग समाधान!

अपने डेटा निष्कर्षण की पूरी क्षमता को उजागर करने के लिए हमारे शक्तिशाली टूलकिट का उपयोग करें:

सर्वश्रेष्ठ कैप्चा सॉल्वर

जारी और सुचारू स्क्रैपिंग सुनिश्चित करने के लिए जटिल कैप्चा का स्वचालित समाधान।

इसे मुफ्त में आज़माएं!

संक्षेप में

वेब ऑटोमेशन प्रोजेक्ट कैप्चा समस्याओं से बाधित हो सकते हैं; हालांकि, पुपेटियर स्टील्थ और स्क्रैपलेस के कैप्चा सॉल्वर का उपयोग करके, आप कैप्चा के आसपास जा सकते हैं और अपनी ऑटोमेशन प्रक्रिया को सुव्यवस्थित कर सकते हैं। यदि आप विभिन्न वेब स्क्रैपिंग लाइब्रेरी में रुचि रखते हैं, तो आपको कैप्चा के आसपास जाने के लिए प्लेराइट का उपयोग करने के तरीके के बारे में यह ब्लॉग लेख भी पढ़ना चाहिए। हमेशा कानून के भीतर रहना याद रखें और किसी भी प्रकार की स्क्रैपिंग गतिविधि शुरू करने से पहले कानूनी सलाह लें।

स्क्रैपलेस के कैप्चा सॉल्वर का अधिकतम लाभ उठाने के लिए, हम आपको एक निःशुल्क परीक्षण के लिए साइन अप करने और हमारे संपूर्ण निर्देशों के माध्यम से जाने की सलाह देते हैं।

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची