🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

Cheerio का उपयोग करके वेब स्क्रैपिंग कैसे करें

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

01-Nov-2024

वेब स्क्रैपिंग हमें वेबसाइटों से जानकारी एकत्र करने की अनुमति देता है ताकि विभिन्न अनुप्रयोगों में विश्लेषण और उपयोग किया जा सके, प्रतिस्पर्धी मूल्य निर्धारण की निगरानी से लेकर बड़े डेटासेट निकालने तक। इस गाइड में, हम Cheerio पर ध्यान केंद्रित करेंगे, जो HTML को स्क्रैप करने और पार्स करने के लिए एक शक्तिशाली उपकरण है, विशेष रूप से स्थिर पृष्ठों के लिए उपयुक्त है। यहां, हम एक Cheerio-आधारित स्क्रैपर को स्थापित करने के तरीके के बारे में बताएंगे, आवश्यक पार्सिंग तकनीकों में गोता लगाएंगे, और इसके व्यावहारिक अनुप्रयोगों को प्रदर्शित करने के लिए एक वास्तविक दुनिया के उदाहरण का उपयोग करेंगे।

Cheerio क्या है?

Cheerio htmlparser2 पर आधारित एक शक्तिशाली और बहुमुखी Node.js लाइब्रेरी है, जो सर्वर-साइड पर DOM तत्वों को संभालने और हेरफेर करने के लिए jQuery-शैली API प्रदान करता है। यह इसे वेब स्क्रैपिंग के लिए एक लोकप्रिय विकल्प बनाता है, क्योंकि यह HTML पार्सिंग और डेटा निष्कर्षण के लिए कुशल विधियाँ प्रदान करता है। इसके सरल, लचीले API Cheerio को कई परियोजनाओं में वेब स्क्रैपिंग कार्यों के लिए एक आदर्श विकल्प बनाते हैं, क्योंकि यह उपयोग में आसान है और प्रसंस्करण की गति तेज है।

वेब स्क्रैपिंग के लिए Cheerio को क्यों चुनें?

विशेष रूप से स्थिर HTML सामग्री को संभालते समय, Node.js में वेब स्क्रैपिंग के लिए Cheerio को व्यापक रूप से पसंद किया जाता है। इसकी हल्की और तेज प्रकृति इसे उन परिदृश्यों के लिए आदर्श बनाती है जहां JavaScript रेंडरिंग की आवश्यकता नहीं होती है। Puppeteer या Playwright जैसे ब्राउज़र-आधारित टूल के विपरीत, Cheerio पूरे पृष्ठों को लोड किए बिना सीधे HTML को पार्स करता है, जो संसाधनों का संरक्षण करता है और स्क्रैपिंग प्रक्रिया को तेज करता है।

Cheerio का एक महत्वपूर्ण लाभ इसकी jQuery जैसी सिंटैक्स है, जो डेवलपर्स को परिचित CSS-शैली चयनकर्ताओं का उपयोग करके HTML तत्वों के साथ बातचीत करने की अनुमति देता है। यह आसानी से उपयोग, इसकी दक्षता के साथ संयुक्त, Cheerio को सीधे डेटा निष्कर्षण कार्यों के लिए एक आदर्श समाधान बनाता है।

नीचे अन्य लोकप्रिय पुस्तकालयों के साथ Cheerio की तुलना दी गई है:

लाइब्रेरी जावास्क्रिप्ट निष्पादन संसाधन उपयोग गति उपयोग केस
Cheerio नहीं कम तेजी से स्थिर HTML स्क्रैपिंग
Puppeteer हाँ उच्च मध्यम गतिशील सामग्री स्क्रैपिंग
Axios नहीं कम तेजी से कच्चे HTML को लाना
Playwright हाँ उच्च मध्यम SPA साइटों के साथ बातचीत

स्थिर डेटा को कुशलतापूर्वक स्क्रैप करने पर ध्यान केंद्रित करने वाले डेवलपर्स के लिए, Cheerio एक शक्तिशाली लेकिन सरल उपकरण है। यह विशेष रूप से JavaScript को प्रस्तुत करने के ओवरहेड के बिना डेटा को जल्दी से पुनर्प्राप्त करने और पार्स करने के लिए उपयोगी है, जिससे यह उन परियोजनाओं के लिए आदर्श बन जाता है जिन्हें सुव्यवस्थित और तेज़ समाधान की आवश्यकता होती है।

वेब स्क्रैपिंग के लिए Cheerio सेट अप करना

Cheerio के साथ स्क्रैपिंग शुरू करने से पहले, आपको अपना विकास वातावरण सेट अप करना होगा। इस प्रक्रिया में Node.js को स्थापित करना शामिल है, जो एक JavaScript रनटाइम है जो आपको वेब ब्राउज़र के बाहर JavaScript कोड चलाने की अनुमति देता है। Node.js स्थापित होने के बाद, आप Cheerio के साथ-साथ Axios को स्थापित करने के लिए Node Package Manager (npm) का उपयोग कर सकते हैं, जो वेब पेजों के लिए अनुरोध करने के लिए एक लोकप्रिय HTTP क्लाइंट है।

चरण 1: Node.js स्थापित करें

यदि आपने अभी तक Node.js स्थापित नहीं किया है, तो आप इसे आधिकारिक Node.js वेबसाइट से डाउनलोड कर सकते हैं। अपने ऑपरेटिंग सिस्टम के लिए स्थापना निर्देशों का पालन करें।

चरण 2: एक नई परियोजना बनाएँ

अपना टर्मिनल या कमांड प्रॉम्प्ट खोलें और अपनी परियोजना के लिए एक नई निर्देशिका बनाएँ। निर्देशिका में नेविगेट करें और निम्न को चलाकर एक नई Node.js परियोजना को इनिशियलाइज़ करें:

bash Copy
mkdir cheerio-scraping
cd cheerio-scraping
npm init -y

यह कमांड एक package.json फ़ाइल बनाएगा जो आपकी परियोजना निर्भरताओं का प्रबंधन करता है।

चरण 3: Cheerio और Axios स्थापित करें

अब जब आपकी परियोजना सेट हो गई है, तो आप निम्न कमांड चलाकर Cheerio और Axios स्थापित कर सकते हैं:

bash Copy
npm install cheerio axios

यह कमांड दोनों लाइब्रेरी को डाउनलोड और इंस्टॉल करेगा, जिससे वे आपकी स्क्रिप्ट में उपयोग के लिए उपलब्ध हो जाएंगे।

चरण 4: अपनी स्क्रिप्ट बनाएँ

अगला, अपनी परियोजना निर्देशिका में एक नई JavaScript फ़ाइल बनाएँ। आप इसे scrape.js नाम दे सकते हैं। इस फ़ाइल में आपका वेब स्क्रैपिंग कोड होगा।

एक Cheerio वेब स्क्रैपिंग स्क्रिप्ट की मूल संरचना

अब जब आपने Cheerio और Axios स्थापित कर लिया है, तो आइए इन पुस्तकालयों का उपयोग करके एक वेब स्क्रैपिंग स्क्रिप्ट की मूल संरचना पर एक नज़र डालें। नीचे एक नमूना कोड स्निपेट है जो दर्शाता है कि एक उदाहरण ई-कॉमर्स वेबसाइट से उत्पाद डेटा को कैसे स्क्रैप किया जाए।

उदाहरण स्क्रिप्ट

javascript Copy
const axios = require('axios');
const cheerio = require('cheerio');

// उस वेबसाइट का URL जिसे आप स्क्रैप करना चाहते हैं
const url = 'https://example.com/products';

// HTML सामग्री लाने के लिए फ़ंक्शन
async function fetchHTML(url) {
    try {
        const { data } = await axios.get(url);
        return data;
    } catch (error) {
        console.error(`URL लाने में विफल: ${error}`);
    }
}

// उत्पाद डेटा को स्क्रैप करने के लिए फ़ंक्शन
async function scrapeProductData() {
    const html = await fetchHTML(url);
    const $ = cheerio.load(html);
    
    // स्क्रैप किए गए डेटा को रखने के लिए सरणी
    const products = [];

    // तत्वों का चयन करें और डेटा निकालें
    $('.product-item').each((index, element) => {
        const productName = $(element).find('.product-name').text().trim();
        const productPrice = $(element).find('.product-price').text().trim();

        products.push({
            name: productName,
            price: productPrice
        });
    });

    console.log(products);
}

// स्क्रैपिंग फ़ंक्शन चलाएँ
scrapeProductData();

कोड का स्पष्टीकरण

  1. आयात: स्क्रिप्ट आवश्यक पुस्तकालयों को आयात करके शुरू होती है, HTTP अनुरोधों के लिए Axios और HTML को पार्स करने के लिए Cheerio।

  2. fetchHTML फ़ंक्शन: यह अतुल्यकालिक फ़ंक्शन एक URL को तर्क के रूप में लेता है, उस URL पर एक GET अनुरोध करता है, और HTML सामग्री देता है। यदि अनुरोध के दौरान कोई त्रुटि होती है, तो यह कंसोल में एक त्रुटि संदेश लॉग करता है।

  3. scrapeProductData फ़ंक्शन: यह फ़ंक्शन पहले fetchHTML का उपयोग करके HTML सामग्री लाता है। फिर, यह cheerio.load() का उपयोग करके Cheerio में HTML लोड करता है।

  4. डेटा निष्कर्षण: यह .product-item वर्ग वाले तत्वों का चयन करता है और प्रत्येक तत्व पर पुनरावृति करता है। प्रत्येक उत्पाद के लिए, यह उत्पाद नाम और कीमत निकालता है, रिक्त स्थान को ट्रिम करता है, और परिणामों को एक सरणी में धकेलता है।

  5. आउटपुट: अंत में, यह कंसोल में उत्पाद डेटा की सरणी लॉग करता है।

Cheerio के साथ HTML पार्सिंग: मुख्य तकनीकें

Cheerio के साथ, HTML को पार्स करना सीधा है। यहां बताया गया है कि विभिन्न प्रकार के डेटा को कैसे निकाला जाए:

तत्वों से टेक्स्ट निकालना

.text() का उपयोग करके HTML टैग से टेक्स्ट सामग्री निकालें। उदाहरण के लिए, सभी अनुच्छेद प्राप्त करने के लिए:

javascript Copy
$('p').each((index, element) => {
    console.log(`अनुच्छेद ${index + 1}:`, $(element).text());
});

विशेषता मान निकालना

छवियों या लिंक को स्क्रैप करने के लिए, आपको attr() विधि की आवश्यकता होगी:

javascript Copy
$('img').each((index, element) => {
    const imgSrc = $(element).attr('src');
    console.log(`छवि ${index + 1}:`, imgSrc);
});

DOM ट्रैवर्सल

Cheerio DOM नेविगेशन के लिए .parent(), .children(), और .find() जैसे तरीकों का भी समर्थन करता है। यह तब सहायक होता है जब डेटा नेस्ट किया जाता है।

javascript Copy
$('.article').children('h2').each((index, element) => {
    console.log('उपशीर्षक:', $(element).text());
});

उदाहरण: एक ब्लॉग से समाचार शीर्षक स्क्रैपिंग

आइए एक लोकप्रिय तकनीकी ब्लॉग से हालिया लेख शीर्षकों को स्क्रैप करके एक व्यावहारिक उदाहरण लें। मान लें कि हम https://example-blog.com से सभी लेख शीर्षकों को निकालना चाहते हैं।

चरण:

  1. लेख शीर्षक वाले HTML टैग की पहचान करने के लिए ब्लॉग की HTML संरचना का निरीक्षण करें (जैसे, <h2 class="post-title">).
  2. इन तत्वों का चयन करने और पुनर्प्राप्त करने के लिए Cheerio का उपयोग करें।

उदाहरण कोड:

javascript Copy
const axios = require('axios');
const cheerio = require('cheerio');

async function scrapeBlogTitles() {
    try {
        const { data } = await axios.get('https://example-blog.com');
        const $ = cheerio.load(data);

        // सभी लेख शीर्षक का चयन करें
        $('h2.post-title').each((index, element) => {
            const title = $(element).text();
            console.log(`लेख ${index + 1}:`, title);
        });

    } catch (error) {
        console.error('ब्लॉग शीर्षक लाने में त्रुटि:', error);
    }
}

scrapeBlogTitles();

इस उदाहरण में:

  • axios.get() ब्लॉग की HTML सामग्री लाता है।
  • cheerio.load(data) सामग्री को Cheerio में लोड करता है।
  • $('h2.post-title') टैग और वर्ग के आधार पर सभी शीर्षकों का चयन करता है।
  • $(element).text() प्रत्येक शीर्षक को निकालता है और लॉग करता है।

Cheerio के साथ सामान्य चुनौतियों को संभालना

यहां Cheerio के साथ सामान्य चुनौतियों पर संशोधित अनुभाग दिया गया है, अब केवल दो वास्तविक वेबसाइटों को उदाहरणों के लिए और हाइपरलिंक शामिल हैं:

Cheerio के साथ सामान्य चुनौतियाँ क्या हैं

जबकि Cheerio वेब स्क्रैपिंग के लिए एक शक्तिशाली और बहुमुखी उपकरण है, यह अपनी चुनौतियों के बिना नहीं है। उपयोगकर्ताओं को अक्सर कई बाधाओं का सामना करना पड़ता है जो डेटा निष्कर्षण प्रक्रिया को जटिल कर सकती हैं।

सबसे महत्वपूर्ण चुनौतियों में से एक गतिशील सामग्री को संभालना है। कई आधुनिक वेबसाइटें JavaScript ढाँचों का उपयोग करती हैं, जिसका अर्थ है कि परोसी गई प्रारंभिक HTML में वह सारी जानकारी नहीं हो सकती है जिसकी आपको आवश्यकता है। उदाहरण के लिए, जब एक लोकप्रिय ई-कॉमर्स वेबसाइट जैसे Amazon को स्क्रैपिंग करते हैं, तो प्रारंभिक HTML में केवल मूल लेआउट तत्व शामिल हो सकते हैं, जबकि उत्पाद विवरण, समीक्षा और कीमतें अतुल्यकालिक रूप से लोड की जाती हैं। यदि आपका Cheerio स्क्रिप्ट सभी JavaScript निष्पादित होने से पहले चलता है, तो आप अधूरे डेटा के साथ समाप्त हो सकते हैं।

एक और चुनौती दर सीमा और आईपी अवरुद्ध है। वेबसाइटें अक्सर आने वाले ट्रैफ़िक की निगरानी करती हैं और किसी निश्चित सीमा से अधिक अनुरोधों को अवरुद्ध या थ्रॉटल कर सकती हैं। उदाहरण के लिए, eBay जैसी साइट एकल IP पते से प्रति मिनट केवल सीमित संख्या में अनुरोधों की अनुमति दे सकती है। यदि आपकी स्क्रैपिंग स्क्रिप्ट बहुत जल्दी अनुरोध भेजती है, तो आपको HTTP 403 निषिद्ध प्रतिक्रियाएँ प्राप्त हो सकती हैं, जिससे आपके डेटा निष्कर्षण प्रयास प्रभावी रूप से रुक जाते हैं। इसे दूर करने के लिए, अपनी स्क्रिप्ट में थ्रॉटलिंग लागू करने पर विचार करें, अनुरोधों के बीच देरी जोड़ें, या लोड वितरित करने के लिए घूर्णन प्रॉक्सी का उपयोग करें।

इन सामान्य चुनौतियों को समझकर और सक्रिय रूप से संबोधित करके, आप Cheerio का उपयोग करके अपनी वेब स्क्रैपिंग परियोजनाओं को बढ़ा सकते हैं, एक अधिक कुशल और सफल डेटा निष्कर्षण प्रक्रिया सुनिश्चित कर सकते हैं।

आपके द्वारा काम करने वाली परियोजना पर वेब स्क्रैपिंग चुनौतियों और लगातार ब्लॉकों से परेशान हैं?

Scrapeless का उपयोग करके डेटा निष्कर्षण को आसान और कुशल बनाने पर विचार करें, यह सब एक शक्तिशाली उपकरण में।

आज ही इसे मुफ्त में आज़माएँ!

त्रुटि हैंडलिंग

नेटवर्क समस्याएँ या अप्रत्याशित पृष्ठ परिवर्तन त्रुटियाँ पैदा कर सकते हैं। इन्हें सुचारू रूप से संभालने के लिए try-catch ब्लॉक का उपयोग करें:

javascript Copy
try {
    // आपका स्क्रैपिंग कोड यहां
} catch (error) {
    console.error('डेटा स्क्रैप करने में त्रुटि:', error);
}

8. वेब स्क्रैपिंग में Cheerio का उपयोग करने के लिए सर्वोत्तम अभ्यास

Cheerio के साथ कुशल और अनुपालन वेब स्क्रैपिंग सुनिश्चित करने के लिए, निम्नलिखित बातों का ध्यान रखें:

  • विशिष्ट तत्वों को लक्षित करें: पार्सिंग समय कम करने के लिए सटीक चयनकर्ताओं का उपयोग करें।
  • एज केस को संभालें: HTML संरचना में परिवर्तन के लिए तैयार रहें।
  • वेबसाइट नीतियों का सम्मान करें: केवल तभी स्क्रैप करें जब अनुमति हो, और उपयोग नीतियों का सम्मान करें।
  • अनुरोधों का अनुकूलन करें: पहचान के जोखिम को कम करने के लिए अनुरोध शीर्षलेखों और सत्र प्रबंधन का उपयोग करें।

निष्कर्ष

Cheerio HTML को पार्स करने और स्थिर वेब पेजों को स्क्रैप करने के लिए एक शक्तिशाली उपकरण है। इसकी लचीलापन, दक्षता और सीखने में आसान सिंटैक्स इसे विभिन्न स्क्रैपिंग कार्यों के लिए एकदम सही बनाता है। सर्वोत्तम प्रथाओं का पालन करके और नैतिक और तकनीकी दिशानिर्देशों पर विचार करके, आप प्रभावी ढंग से वेबसाइटों से सार्थक डेटा एकत्र करने के लिए Cheerio का लाभ उठा सकते हैं।

चाहे वह शोध, SEO विश्लेषण या प्रतिस्पर्धी अंतर्दृष्टि के लिए हो, Cheerio वेब स्क्रैपिंग की एक विस्तृत श्रृंखला की जरूरतों को पूरा कर सकता है। बस जिम्मेदारी से स्क्रैप करना याद रखें और अपनी स्क्रिप्ट को HTML संरचनाओं में गतिशील परिवर्तनों को संभालने के लिए अनुकूल बनाए रखें।

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची