Google News को API और Node.js का उपयोग करके कैसे Scrape करें?

Senior Web Scraping Engineer
news.google.com शायद समाचार लेख खोजने के लिए सबसे अच्छी जगह है! Google समाचार वास्तविक समय, सत्यापित समाचारों का संग्रह है और इंटरनेट उपयोगकर्ताओं के लिए सबसे विश्वसनीय और पसंदीदा प्लेटफार्मों में से एक है।
इसी कारण से, डेटा विश्लेषण, शोध, या केवल समाचार पढ़ने के लिए नवीनतम समाचार लेख, ट्रेंडिंग विषयों और संबंधित मेटाडेटा एकत्र करने के लिए Google समाचार को स्क्रैप किया जा सकता है। यदि आप एक कदम आगे बढ़ना चाहते हैं, तो वास्तविक समय वेब स्क्रैपिंग के माध्यम से अपना स्वयं का व्यक्तिगत समाचार अनुप्रयोग बनाने में Google समाचार को स्क्रैप करने से भी मदद मिल सकती है।
इस ब्लॉग पोस्ट में, हम Node.JS और Google समाचार API का उपयोग करके Google समाचार से प्रासंगिक डेटा एकत्रित करने के तरीके का पता लगाएंगे।
हमें Google समाचार परिणामों को क्यों स्क्रैप करना चाहिए?
उद्योग की परवाह किए बिना, Google समाचार से डेटा को स्क्रैप करने से किसी संगठन के विकास को बहुत सुविधा मिल सकती है:
आइए यात्रा या आतिथ्य उद्योग में एक कंपनी का उदाहरण लें। यात्रा रणनीतियों, सुरक्षा उपायों और पर्यटन के रुझानों के बारे में जानकारी एकत्र करने से कंपनियों को अधिभोग दरों में परिवर्तन की भविष्यवाणी करने और तदनुसार कार्रवाई की योजना बनाने में मदद मिल सकती है। वे अपनी मार्केटिंग रणनीतियों को और अधिक प्रभावी बनाने और नए ग्राहकों को आकर्षित करने के लिए इस जानकारी का उपयोग कर सकते हैं।
दूसरी ओर, निवेश कंपनियां बाजार के विकास, नियामक परिवर्तनों और आर्थिक पूर्वानुमानों के बारे में डेटा एकत्र करने के लिए वित्तीय समाचारों का उपयोग कर सकती हैं। इस डेटा के सही उपयोग से उन्हें जोखिम को अधिक प्रभावी ढंग से प्रबंधित करने और अपने ग्राहकों को अधिक सटीक सलाह प्रदान करने में मदद मिल सकती है। इससे उनके पोर्टफोलियो के प्रदर्शन और ग्राहक संतुष्टि में सुधार हो सकता है।
Google समाचार स्क्रैपर क्या डेटा एकत्रित करता है?

📰 लेख मेटाडेटा
- हेडलाइन्स: समाचार लेख का शीर्षक।
- स्रोत: प्रकाशक या समाचार आउटलेट (जैसे, बीबीसी, सीएनएन)।
- प्रकाशन तिथि: लेख कब प्रकाशित हुआ था।
- लेखक: पत्रकार या योगदानकर्ता का नाम।
- सारांश/स्निपेट: लेख का संक्षिप्त विवरण या अंश।
- URL: पूर्ण लेख का लिंक।
✍️ सामग्री डेटा
- पूर्ण पाठ: समाचार लेख का मुख्य भाग (स्रोत वेबसाइट तक पहुँचने की आवश्यकता है)।
- छवियां/मीडिया: लेख में एम्बेड की गई छवियां, वीडियो या अन्य मीडिया।
- कीवर्ड/विषय: लेख से जुड़े टैग या श्रेणियाँ (जैसे, "राजनीति," "प्रौद्योगिकी")।
📊 ट्रेंडिंग और लोकप्रियता डेटा
- ट्रेंडिंग विषय: Google समाचार पर वर्तमान लोकप्रिय विषय या कहानियाँ।
- शीर्ष कहानियाँ: किसी विशिष्ट श्रेणी या क्षेत्र के लिए शीर्ष समाचार के रूप में हाइलाइट किए गए लेख।
- खोज रुझान: समाचार विषयों से संबंधित लोकप्रिय खोज शब्द।
🧭 भौगोलिक और जनसांख्यिकीय डेटा
- स्थान-आधारित समाचार: विशिष्ट क्षेत्रों या देशों के लिए तैयार किए गए समाचार लेख।
- भाषा: वह भाषा जिसमें लेख लिखा गया है।
🧐 विश्लेषण और अंतर्दृष्टि
- भावना विश्लेषण: लेख का स्वर या भावना (सकारात्मक, नकारात्मक, तटस्थ)।
- विषय क्लस्टरिंग: समान विषयों या विषयों द्वारा लेखों को समूहीकृत करना।
- कालिक विश्लेषण: समय के साथ समाचार कहानियों के विकास को ट्रैक करना।
Node.js का उपयोग करके अपना Google समाचार स्क्रैपर बनाएँ | चरण दर चरण
पर्यावरण तैयारी
हमें Node प्रोजेक्ट में निम्नलिखित पुस्तकालयों को आयात करने की आवश्यकता है।
JavaScript
const axios = require('axios');
const fs = require('fs');
अब, आइए Google समाचार से कुछ परिणाम प्राप्त करने के लिए एक फ़ंक्शन बनाएँ:
JavaScript
async function getNewsData() {
const headers = {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",
};
try {
const response = await axios.get(
"https://news.google.com/home?hl=en-US&gl=US",
{ headers }
);
const html = response.data;
} catch (error) {
console.error("Error:", error.message);
}
}
अब, हम हेडर का User-Agent सेट करते हैं, जो हमें स्वाभाविक रूप से Google तक पहुँचने की अनुमति देता है। फिर हम अनुरोध करने के लिए अनुरोध पुस्तकालय का उपयोग करते हैं।
अब, हमें लौटाए गए डेटा से आवश्यक डेटा खोजना होगा।

यदि आप क्वेरी के माध्यम से खोज करते हैं, तो आप पा सकते हैं कि प्रत्येक परिणाम या समाचार पृष्ठ पर मौजूद है। इसलिए, हमें आवश्यक डेटा से मेल खाने के लिए नियमित अभिव्यक्तियों का उपयोग करने और फिर उसे संसाधित करने की आवश्यकता है।
JavaScript
const regex = /data:(\[.*?\]), sideChannel/s;
const match = html.match(regex);
Google समाचार डेटा स्क्रैप करें
निकाले गए डेटा समूह में विशिष्ट जानकारी एक सरणी के रूप में संग्रहीत है। इस समय, आपको पृष्ठ पर विशिष्ट जानकारी की तुलना करने और विशिष्ट डेटा के अनुरूप सदस्यता को फ़िल्टर करने की आवश्यकता है।
JavaScript
let resp = [];
const data = JSON.parse(match[1]);
for (const section of data[1][3][1]) {
if (Array.isArray(section[0])) {
for (const item of section[0]) {
const utcTime = new Date(item[4][0] * 1000).toISOString();
console.log(utcTime)
resp.push({
title: item[2],
source: {
name: item[10][2],
icon: item[10][22]?.[0] || null,
authors: item[item.length - 1]?.[0] || []
},
link: item[38],
thumbnail: item[8]?.[0]?.[13] || null,
thumbnail_small: item[8]?.[0]?.[0] || null,
date: utcTime
});
break;
}
}
}
अंत में, हमने वह सारा डेटा निकाल लिया है जिसकी हमें आवश्यकता है।
पूरा कोड
JavaScript
const axios = require('axios');
const fs = require('fs');
async function getNewsData() {
const headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36"
};
try {
const response = await axios.get("https://news.google.com/home?hl=en-US&gl=US", { headers });
const html = response.data;
const regex = /data:(\[.*?\]), sideChannel/s;
const match = html.match(regex);
if (!match || !match[0]) {
throw new Error('No valid JSON data found');
}
let resp = [];
const data = JSON.parse(match[1]);
for (const section of data[1][3][1]) {
if (Array.isArray(section[0])) {
for (const item of section[0]) {
const utcTime = new Date(item[4][0] * 1000).toISOString();
resp.push({
title: item[2],
source: {
name: item[10][2],
icon: item[10][22]?.[0] || null, // Safe access to nested properties
authors: item[item.length - 1]?.[0] || []
},
link: item[38],
thumbnail: item[8]?.[0]?.[13] || null,
thumbnail_small: item[8]?.[0]?.[0] || null,
date: utcTime
});
break;
}
}
}
return resp;
} catch (error) {
console.error('Error:', error.message);
}
}
// Execute function
getNewsData().then(data => {
console.log(data);
});
क्रॉलिंग परिणाम
अब, आइए टर्मिनल में चल रहे कोड के परिणाम देखें:

हालांकि, डेटा को सुरक्षित स्थान पर सहेजने के लिए, हमें कुछ अनुकूलन करने की आवश्यकता है:
JavaScript
const fs = require('fs');
fs.writeFileSync('data.json', JSON.stringify(resp, null, 2), 'utf8');
अंतिम फ़ाइल सामग्री इस प्रकार है:

Scrapeless Deep SerpApi के साथ आसानी से Google समाचार स्क्रैप करें

हमारा Google समाचार API आपको Google समाचार खोज पृष्ठों से परिणाम स्क्रैप करने की अनुमति देता है। API निम्न एंडपॉइंट के माध्यम से पहुँचा जा सकता है: "engine": "google_news"
। आप https://apidocs.scrapeless.com/api-14581677 पर डेटा स्क्रैपिंग को पूरा करने के लिए APIDog का उपयोग कर सकते हैं। वैकल्पिक रूप से, एक त्वरित तरीका Scrapeless Deep SerpApi Playground का उपयोग करके सीधे लाइव इंटरैक्टिव डेमो देखना है।
हमें API का उपयोग क्यों करना चाहिए?
- स्क्रैच से पार्सर बनाने और उसे बनाए रखने की कोई आवश्यकता नहीं है।
- Google के ब्लॉकिंग को बायपास करें: स्वचालित रूप से एंटी-बॉट को हल कर सकता है या IP ब्लॉकिंग को हल कर सकता है।
- अतिरिक्त रूप से प्रॉक्सी और वेब अनलॉकर के लिए भुगतान करने की कोई आवश्यकता नहीं है।
- ब्राउज़र ऑटोमेशन का उपयोग करने की कोई आवश्यकता नहीं है।
Scrapeless Google समाचार API उपरोक्त सभी समस्याओं को आसानी से संभाल सकता है, प्रति अनुरोध ~2.33 सेकंड के कम प्रतिक्रिया समय के साथ (~1.47 सेकंड आश्चर्यजनक रूप से तेज़ है)। उपयोगकर्ताओं को सटीक स्क्रैप किए गए डेटा प्राप्त करने के लिए केवल एक API कॉल की आवश्यकता होती है, जिसे हम अच्छी तरह से संरचित JSON का उपयोग करके प्रदर्शित करते हैं।
हमारे समुदाय में शामिल हों और 500K मुफ्त उपयोग प्राप्त करें!
चरणों का उपयोग करना
- चरण 1. Scrapeless Playground में लॉग इन करें।
- चरण 2. Google समाचार अभिनेता को खोजें और क्लिक करें।
- चरण 3. क्वेरी पैरामीटर कॉन्फ़िगर करें।
- चरण 4. खोज प्रारंभ करें पर क्लिक करें और परिणाम प्राप्त करें।

आगे पढ़ना
- Google खोज परिणामों को कैसे स्क्रैप करें?
- Google रुझानों को कैसे स्क्रैप करें?
- Google मानचित्र सार्वजनिक डेटा को कैसे स्क्रैप करें?
- Google नौकरियों को कैसे स्क्रैप करें?
- Google स्कॉलर को कैसे स्क्रैप करें?
- Google शॉपिंग को कैसे स्क्रैप करें?
- Google फ़्लाइट्स को कैसे स्क्रैप करें?
निचली रेखाएँ
यह लेख Node.js का उपयोग करके Google समाचार को स्क्रैप करने के दो तरीकों पर चर्चा करता है। डेटा संग्रहकर्ता जो स्वतंत्र स्क्रैपिंग उपकरण रखना चाहते हैं और वेब पेजों के साथ बातचीत करने के लिए वैकल्पिक के रूप में Node.js का उपयोग करना चाहते हैं, वे डेटा स्क्रैप करते समय कुछ लचीलापन रखना चाहते हैं। अपने स्क्रैपर को आसानी से बनाने के लिए हमारे चरणों का पालन करें।
इसके अतिरिक्त, Google समाचार API एक सरल समाधान है जो वेब पेज से प्राप्त कच्चे डेटा को जल्दी से निकाल और साफ कर सकता है और इसे एक संरचित JSON प्रारूप में प्रस्तुत कर सकता है। डेटा संग्रह को जल्दी से पूरा करने के लिए केवल सरल पैरामीटर कॉन्फ़िगरेशन की आवश्यकता होती है।
सामान्य प्रश्न
क्या Google समाचार को स्क्रैप करना कानूनी है?
हाँ, Google समाचार को स्क्रैप करना कानूनी है क्योंकि यह सार्वजनिक जानकारी है। हालाँकि, आपको कॉपीराइट और व्यक्तिगत डेटा के संबंध में स्थानीय और क्षेत्रीय कानूनों से अवगत होना चाहिए।
क्या Google अवैध सामग्री को हटाता है?
हाँ। आम तौर पर, Google केवल उस देश/क्षेत्र में सामग्री को हटा देगा या उस तक पहुँच को प्रतिबंधित कर देगा जहाँ इसे अवैध माना जाता है।
क्या Google वेब स्क्रैपर को ब्लॉक करता है?
Google की शर्तें और शर्तें स्पष्ट रूप से उनकी सेवाओं को स्क्रैप करने पर रोक लगाती हैं, जिसमें खोज परिणाम भी शामिल हैं। इन शर्तों का उल्लंघन करने से Google सेवाएँ आपके IP पते को ब्लॉक कर सकती हैं। परिणामस्वरूप, आपको एक शक्तिशाली वेब अनलॉकर समाधान से लैस करना पड़ सकता है।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।