🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

Turnstile और Cloudflare Bot Challenge Web ट्रैफ़िक की रक्षा कैसे करते हैं

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

25-Sep-2024

इंटरनेटवर तंत्रज्ञानाचा सतत होणारा विकास लक्षात घेता, वेब संसाधनांची सुरक्षा वेबसाइट मालकांना आणि डेव्हलपर्सना चिंताजनक बनली आहे. स्वयंचलित हल्ल्यांना आणि बॉट्सना रोखणारी संरक्षणात्मक उपाययोजनांचा वापर करणे अधिकाधिक महत्त्वाचे बनत आहे.

क्लाउडफ्लेअरच्या नवीन तंत्रज्ञानातील दोन प्रमुख तंत्रज्ञानांमध्ये टर्नस्टाईल आणि बॉट चॅलेंज, वापरण्यास सोपेपणा आणि विश्वासार्ह सुरक्षेचे मिश्रण आहेत. यांच्या कार्यप्रणालीचा बारकाईने विचार करूया.

डेव्हलपर्सच्या मते, या तंत्रज्ञानांचा विकास करण्यामागील प्राथमिक उद्देश्य हा आहे की वास्तविक वापरकर्त्यांना त्रास न देता हानिकारक बॉट हल्ल्यांना कमी करणे.

क्लाउडफ्लेअरने बॉट्स कसे शोधतात

सेवा सक्रिय (क्लायंट-साइड) आणि निष्क्रिय (सर्व्हर-साइड) दोन्ही प्रकारच्या बॉट शोध तंत्रांचा वापर करते.

निष्क्रिय पद्धती

बॉटनेट ओळख

क्लाउडफ्लेअर धोकादायक बॉटनेट्सशी संबंधित डिव्हाइसेस, आयपी पत्ते आणि वर्तनांचा अभिलेख ठेवतो. या नेटवर्कशी जोडलेले असल्याचे मानले जाणारे कोणतेही डिव्हाइस किंवा तर ताबडतोब ब्लॉक केले जाते किंवा त्यांना अधिक क्लायंट-साइड समस्या सोडवाव्या लागतात.

आयपी प्रतिष्ठा

वापरकर्त्याच्या आयपी पत्त्याची प्रतिष्ठा त्यांच्या स्थान, आयएसपी आणि प्रतिष्ठेच्या इतिहासाचे मूल्यांकन करून ठरवली जाते. उदाहरणार्थ, डेटा सेंटर किंवा प्रतिष्ठित व्हीपीएन सेवेतील आयपी पत्ता राहत्या घरातील आयपी पत्त्यापेक्षा कमी प्रतिष्ठित असेल. वास्तविक क्लायंटचा ट्रॅफिक त्यांच्या सेवा क्षेत्राच्या बाहेरून कधीही सुरू होत नसल्याने, वेबसाइट अशा क्षेत्रातील प्रवेशावरही निर्बंध घालू शकते.

HTTP विनंती शीर्षलेख

क्लाउडफ्लेअर सत्यापनसाठी HTTP विनंती शीर्षलेखांचा वापर करते. जर तुमच्या पार्सरमध्ये ब्राउझर-अनुकूल वापरकर्ता एजंट नसेल तर तो बॉट म्हणून ओळखला जाऊ शकतो. जर एखाद्या बॉटने कोणतेही शीर्षलेख नसताना विनंती सादर केली, किंवा जर तुमच्या वापरकर्ता एजंटनुसार, शीर्षलेख जुळत नसतील तर सेवा बॉटला ब्लॉक करू शकते.

टीएलएस फिंगरप्रिंट

जेव्हा तुम्ही सर्व्हरशी कनेक्ट होते तेव्हा टीएलएस फिंगरप्रिंट तयार होतो. फिंगरप्रिंट हाश मिळविण्यासाठी सिस्टम एलिप्टिक कर्व्ज, एक्सटेंशन आणि सायफर सूट्सचे विश्लेषण करते.

जर क्लायंट विनंतीतील वापरकर्ता एजंट शीर्षलेख रेकॉर्ड केलेल्या फिंगरप्रिंट हाशशी संबंधित वापरकर्ता एजंटशी जुळला तर सुरक्षा प्रणाली असा निष्कर्ष काढते की विनंती सामान्य ब्राउझरमधून आली आहे. ही डेटा जुळत नसल्यास विनंती नाकारली जाईल.

HTTP/2 फिंगरप्रिंट

टीएलएस फिंगरप्रिंटिंगप्रमाणेच प्रत्येक क्लायंट विनंतीला स्थिर HTTP/2 फिंगरप्रिंट असेल. क्लाउडफ्लेअर नेहमीच डेटाबेसमधून संग्रहीत केलेल्या व्हाईटलिस्टमधून विनंतीतील फिंगरप्रिंट आणि वापरकर्ता एजंट जोडीची तुलना करून विनंतीची वैधता तपासतो.

टीएलएस फिंगरप्रिंटिंग आणि HTTP/2 जवळजवळ समान आहेत. क्लाउडफ्लेअर वापरत असलेल्या सर्व निष्क्रिय बॉट शोध तंत्रांपैकी, या दोन विनंत्यांवर आधारित सर्वात कठीण आहेत. तथापि, ते सर्वात महत्वाचे आहेत.

सक्रिय पद्धती

घटना ऐकणे

वेब पेजवर क्लाउडफ्लेअरद्वारे जावास्क्रिप्टचा वापर करून एक addEventListener कार्य जोडले जाऊ शकते, ज्यामुळे वेबसाइट वापरकर्त्याच्या इनपुटचा मागोवा घेऊ शकते जसे की माउस क्लिक, कीस्ट्रोक आणि हालचाल. जर ते वापरले जात नसतील तर वापरकर्ता बॉट असण्याची शक्यता आहे.

API विनंती

एका विशिष्ट ब्राउझरसाठी एक्सक्लूसिव्ह APIs. काही ब्राउझर्समध्ये ही आवश्यकता असते, पण काहीमध्ये नसते.

उदाहरणार्थ, खिडकी.क्रोम गुणधर्म Chrome वेब ब्राउझरसाठी अद्वितीय आहे. जर तुम्ही पाठवत असलेल्या डेटामध्ये तुम्ही Chrome वापरत आहात असे म्हटले आहे, परंतु तुम्ही Firefoxसाठी वापरकर्ता एजंट वापरून पाठवत असाल तर काहीतरी चूक आहे हे स्पष्ट होईल.

टाइमस्टॅम्पसाठी API

Date.now() आणि window.performance.timing.navigationStart सारख्या टाइमस्टॅम्प APIs वापरून सेवा वापरकर्त्याची गती मेट्रिक्स ट्रॅक करते. जर टॅग त्यांच्या सामान्य ऑनलाइन वर्तनाशी जुळत नसतील तर वापरकर्तावर बंदी घालवली जाईल.

स्वयंचलित ब्राउझर शोध

क्लाउडफ्लेअरच्या आवश्यकता असलेले गुणधर्म फक्त स्वयंचलित सेटअपमध्ये असतात. उदाहरणार्थ, जेव्हा window.document.__selenium_unwrapped किंवा window.callPhantom उपस्थित असतात तेव्हा PhantomJS आणि Selenium वापरले जातात. जर हे आढळले तर तुम्हाला स्पष्ट कारणांमुळे बंदी घातली जाईल.

सँडबॉक्स ओळख

JSDOM वापरत असलेल्या NodeJS मधील तपासण्यांसारख्या तपासण्या सिम्युलेटेड ब्राउझर कॉन्टेक्स्ट थांबवतात. स्क्रिप्टमध्ये प्रक्रिया ऑब्जेक्ट फाइल शोधण्याची क्षमता आहे, जी NodeJS साठी अद्वितीय आहे.

Function.prototype.toString.call(functionName)चा वापर देखील करून असे शोधता येते की कार्ये बदलली आहेत की नाही.

क्लाउडफ्लेअर टर्नस्टाईल

CAPTCHAसाठी एक बुद्धिमान पर्याय म्हणजे क्लाउडफ्लेअर टर्नस्टाईल. वापरकर्त्यांना CAPTCHA सादर करणे किंवा ट्रॅफिक क्लाउडफ्लेअरमधून रूट करणे आवश्यक नसताना ते कोणत्याही वेबसाइट संसाधनात समाविष्ट केले जाऊ शकते.

क्लाउडफ्लेअर सीडीएन सुधारण्यासाठी मूळ सर्व्हरला कॉल करा

क्लाउडफ्लेअर फक्त त्या विनंत्या ब्लॉक करू शकतो ज्या त्याच्या नेटवर्कमधून येतात, म्हणून जर आपण मूळ सर्व्हरला थेट विनंती पाठवू शकलो तर ते चांगले होईल. तुमच्या आवश्यक डेटामध्ये कोणतीही सुरक्षा अडथळा नाही!

तुम्हाला दोन पायऱ्या उचलणे आवश्यक आहेत:

1. स्रोताचा आयपी पत्ता शोधा.

सुरक्षित वेबसाइटों पर DNS रिकॉर्ड छिपे होते हैं। हालाँकि, ऐसा हर जगह शायद नहीं है: मेल संदेश, पुरानी सेवाएँ और असुरक्षित सबडोमेन सभी अभी भी मूल सर्वर को संदर्भित कर सकते हैं भले ही वे उसी डोमेन नाम के तहत पहुँच योग्य हों।

2. मूल सर्वर पर डेटा अनुरोध करें।

शानदार - आपके पास अभी भी मूल IP पता है! अब इसके बारे में मुझे क्या करना चाहिए? हालाँकि यह काम नहीं कर सकता है, आप इसे अपने ब्राउज़र के URL बार में पेस्ट करने का प्रयास कर सकते हैं। यह केवल एक वैध डोमेन नाम का उपयोग करके कनेक्शन स्वीकार करने के लिए एक मानक सर्वर सेटिंग है, न कि IP पते का। हमें उनसे दूर रहना चाहिए क्योंकि DNS का उपयोग डोमेन नामों के साथ किया जाता है।

चूँकि क्लाउडफ्लेयर वास्तव में प्रतीक्षा कक्ष जैसे सुरक्षा उपायों को नियोजित करता है, इसलिए यह दृष्टिकोण अक्सर विफल रहता है।

प्रतीक्षा कक्ष: यह क्या है? यह सत्यापित करने के लिए कि आप रोबोट नहीं हैं, आपके ब्राउज़र को कुछ कार्य पूरे करने होंगे। यदि आपको बॉट के रूप में चिह्नित किया जाता है तो "एक्सेस डेनियड" संदेश दिखाई देगा। यदि नहीं, तो वास्तविक वेबसाइट पर स्वचालित रीडायरेक्ट होगा।

थोड़ी देर के लिए, आप क्लाउडफ्लेयर प्रतीक्षा क्षेत्र में होंगे। लक्ष्य का सुरक्षा स्तर और आपके पार्सर द्वारा परीक्षणों को कितनी अच्छी तरह से पास किया जाता है यह सटीक समय निर्धारित करेगा। असाइनमेंट पूरा करने के बाद आपके पास वेबसाइट को देखने के लिए कुछ समय होगा।

मैं क्लाउडफ्लेयर पर प्रतीक्षा कक्ष को कैसे ठीक करूँ? आदर्श रूप से, जावास्क्रिप्ट काम पूरा करके अपनी मानवता प्रदर्शित करें। हालाँकि, कार्य उत्पन्न करने और उत्तर की पुष्टि करने के लिए जिम्मेदार एल्गोरिथम को समझने के लिए जावास्क्रिप्ट क्लाउडफ्लेयर चुनौती का विश्लेषण करना एक व्यावहारिक रणनीति है। ताकि स्क्रिप्ट को फिर से डिज़ाइन किया जा सके।

बॉट चैलेंज और टर्नस्टाइल तक पहुँचते समय सावधानीपूर्वक उपयोगकर्ता एजेंट का चयन करना और प्रीमियम आवासीय प्रॉक्सी का उपयोग करना आवश्यक है।

निष्कर्ष

ऊपर कही गई हर बात को ध्यान में रखते हुए, सबसे आसान तरीका यह है कि क्लाउडफ्लेयर बॉट चैलेंज और टर्नस्टाइल को पार करने के लिए बनाई गई तकनीकों पर भरोसा करें, जैसे स्क्रैपलेस, जो इस प्रकार की सुरक्षा का कुशल समाधान कम लागत पर प्रदान करता है।

क्या आप CAPTCHAs और निरंतर वेब स्क्रैपिंग ब्लॉक से थक गए हैं?

स्क्रैपलेस: उपलब्ध सर्वोत्तम ऑल-इन-वन ऑनलाइन स्क्रैपिंग समाधान!

अपने डेटा निष्कर्षण की पूरी क्षमता को उजागर करने के लिए हमारे शक्तिशाली टूलकिट का उपयोग करें:

सर्वश्रेष्ठ CAPTCHA सॉल्वर

जारी और सहज स्क्रैपिंग सुनिश्चित करने के लिए जटिल CAPTCHAs का स्वचालित समाधान।

इसे मुफ्त में आज़माएं!

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची