🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस कम्युनिटी और अपने नि: शुल्क परीक्षण का दावा करें!
वापस ब्लॉग पर

Python से Google Search Results कैसे Scrape करें - सबसे अच्छा Google Search Scraper?

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

12-Feb-2025

Google SERP क्या है?

जब भी वेब स्क्रैपिंग Google खोज परिणामों पर चर्चा की जाती है, तो आपको सबसे अधिक संभावना है कि "SERP" संक्षिप्त नाम मिलेगा। SERP का अर्थ है सर्च इंजन रिजल्ट पेज। यह वह पृष्ठ है जो आपको सर्च बार में कोई क्वेरी दर्ज करने के बाद मिलता है।

अतीत में, Google आपकी क्वेरी के लिए लिंक की एक सूची देता था। आज, यह पूरी तरह से अलग दिखता है - SERP में कई तरह की सुविधाएँ और तत्व शामिल हैं जो आपके खोज अनुभव को तेज़ और सुविधाजनक बनाते हैं।
आमतौर पर, पृष्ठ में शामिल होते हैं:

  • ऑर्गेनिक सर्च रिजल्ट्स
  • पेड सर्च रिजल्ट्स
  • फीचर्ड स्निपेट्स
  • नॉलेज ग्राफ
  • अन्य तत्व: जैसे मानचित्र, चित्र, या समाचार कहानियाँ जो क्वेरी के आधार पर दिखाई देती हैं।

क्या Google खोज परिणामों को स्क्रैप करना कानूनी है?

Google खोज परिणामों को स्क्रैप करने से पहले, कानूनी निहितार्थों को समझना आवश्यक है। Google की सेवा की शर्तें उनके खोज परिणामों को स्क्रैप करने पर रोक लगाती हैं, जैसा कि उनकी नीतियों में बताया गया है:

"आप किसी भी उद्देश्य के लिए सेवाओं तक पहुँचने के लिए स्क्रैप, क्रॉल या किसी भी स्वचालित साधनों का उपयोग नहीं करेंगे।"

इन शर्तों का उल्लंघन करने से Google द्वारा IP प्रतिबंध या कानूनी कार्रवाई भी हो सकती है। हालाँकि, स्क्रैपिंग की वैधता अधिकार क्षेत्र, आपके द्वारा स्क्रैप किए जा रहे डेटा और आप इसके उपयोग पर निर्भर करती है।

Google स्क्रैपिंग के विकल्प:

  • Google कस्टम सर्च API: Google खोज परिणामों को पुनः प्राप्त करने के लिए एक आधिकारिक API प्रदान करता है, जो उनकी नीतियों का उल्लंघन किए बिना डेटा तक पहुँचने का एक कानूनी और संरचित तरीका प्रदान करता है।
  • अन्य खोज API: यदि आप Google का उपयोग करने के लिए तैयार नहीं हैं, तो अन्य खोज इंजन और सेवाएँ हैं जो खोज परिणामों तक पहुँचने के लिए API प्रदान करती हैं, जैसे कि Bing, और Scrapeless

Google SERP को स्क्रैप करने की 4 मुख्य कठिनाइयाँ

Google SERP को स्क्रैप करने में कई चुनौतियाँ हैं, यही कारण है कि इसे कठिन माना जाता है। इसमें शामिल हैं:

  1. बॉट डिटेक्शन: Google बॉट्स का पता लगाने और उन्हें ब्लॉक करने के लिए कई तकनीकों का उपयोग करता है, जिनमें शामिल हैं:
  • CAPTCHA
  • IP ब्लॉकिंग
  • रेट लिमिटिंग
  1. डायनामिक कंटेंट: Google खोज परिणाम अक्सर जावास्क्रिप्ट का उपयोग करके गतिशील रूप से उत्पन्न होते हैं, जो स्क्रैपिंग को जटिल बना सकते हैं। प्रारंभिक पृष्ठ लोड के बाद सामग्री लोड हो सकती है, जिसके लिए पृष्ठ को पूरी तरह से रेंडर करने के लिए सेलेनियम जैसे टूल की आवश्यकता होती है।
  2. HTML संरचना परिवर्तन: Google अक्सर अपने खोज परिणामों के लेआउट और संरचना को बदलता रहता है, जिसका अर्थ है कि स्क्रैपर्स को कोड को तोड़ने से बचने के लिए जल्दी से अनुकूलित करने की आवश्यकता होती है।
  3. जटिल डेटा: SERP में विज्ञापन, चित्र, वीडियो और समृद्ध स्निपेट जैसे विभिन्न जटिल तत्व शामिल हैं, जिससे लगातार सार्थक डेटा निकालना चुनौतीपूर्ण हो जाता है।

इन चुनौतियों के बावजूद, सही तकनीकों और उपकरणों के साथ Google खोज परिणामों को स्क्रैप करना अभी भी संभव है।

आइए Python के साथ Google खोज परिणामों को स्क्रैप करने के लिए प्रक्रिया को निम्न चरणों में विभाजित करें:

Python का उपयोग करके Google खोज परिणामों को कैसे स्क्रैप करें?

चरण 1: Google को अनुरोध भेजें

स्क्रैपिंग शुरू करने से पहले, आपको Google के खोज पृष्ठ पर एक अनुरोध भेजना होगा। चूँकि Google अधिकांश बॉट्स से अनुरोधों को ब्लॉक करता है, इसलिए उचित User-Agent हेडर सेट करके वास्तविक उपयोगकर्ता का अनुकरण करना आवश्यक है।

Python Copy
import requests
from fake_useragent import UserAgent

# Generate a random user-agent
ua = UserAgent()
headers = {'User-Agent': ua.random}

# Google search query
query = "How to scrape Google search results with Python"
url = f"https://www.google.com/search?q={query}"

# Send the GET request
response = requests.get(url, headers=headers)

# Check if the request was successful
if response.status_code == 200:
    print(response.text)
else:
    print("Failed to retrieve the page")

चरण 2: HTML सामग्री पार्स करें

एक बार जब आपके पास Google SERP की HTML सामग्री हो जाती है, तो आप आवश्यक डेटा निकालने के लिए BeautifulSoup का उपयोग कर सकते हैं।

Python Copy
from bs4 import BeautifulSoup

# Parse the page content
soup = BeautifulSoup(response.text, 'html.parser')

# Find all the search result containers
search_results = soup.find_all('div', class_='BVG0Nb')

for result in search_results:
    title = result.text
    link = result.find('a')['href']
    print(f"Title: {title}")
    print(f"Link: {link}\n")

चरण 3: जावास्क्रिप्ट को हैंडल करना (सेलेनियम का उपयोग करके)

सेलेनियम उन पृष्ठों को संभालने के लिए एक बेहतरीन उपकरण है जो सामग्री को प्रस्तुत करने के लिए जावास्क्रिप्ट पर निर्भर करते हैं। यह एक ब्राउज़र को स्वचालित करता है और उपयोगकर्ता की बातचीत का अनुकरण करता है, जिससे इसे गतिशील रूप से उत्पन्न सामग्री को स्क्रैप करने के लिए आदर्श बनाया जाता है।

Python Copy
from selenium import webdriver
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

# Set up Selenium WebDriver
driver = webdriver.Chrome(ChromeDriverManager().install())

# Open Google and perform the search
driver.get("https://www.google.com/")
search_box = driver.find_element(By.NAME, 'q')
search_box.send_keys("How to scrape Google search results with Python")
search_box.submit()

# Wait for results to load and extract the links
driver.implicitly_wait(5)

# Get search results
search_results = driver.find_elements(By.CLASS_NAME, 'BVG0Nb')

for result in search_results:
    title = result.text
    link = result.find_element(By.TAG_NAME, 'a').get_attribute('href')
    print(f"Title: {title}")
    print(f"Link: {link}\n")

driver.quit()

चरण 4: पता लगाने से बचें

Google द्वारा पता लगाए जाने और ब्लॉक किए जाने की संभावना को कम करने के लिए, आपको यह करना चाहिए:

  • यूज़र एजेंट्स को घुमाएँ: विभिन्न ब्राउज़रों से अनुरोधों का अनुकरण करने के लिए विभिन्न उपयोगकर्ता एजेंटों का उपयोग करें।
  • देरी जोड़ें: मानव जैसे ब्राउज़िंग व्यवहार की नकल करने के लिए अनुरोधों के बीच यादृच्छिक देरी शुरू करें।
  • प्रॉक्सी का उपयोग करें: अपने अनुरोधों को वितरित करने और पता लगाने से बचने के लिए IP पते घुमाएँ।
  • Robots.txt का सम्मान करें: हमेशा Google की robots.txt फ़ाइल की जाँच करें और नैतिक स्क्रैपिंग प्रथाओं का पालन करें।

सबसे अच्छा Google खोज स्क्रैपिंग API - Scrapeless

जबकि Google को सीधे स्क्रैप करना संभव है, यह थकाऊ और त्रुटि-प्रवण हो सकता है, और इसके परिणामस्वरूप अक्सर अवरुद्ध हो जाता है। यहीं पर Scrapeless आता है। शक्तिशाली CAPTCHA सॉल्वर, IP रोटेशन, इंटेलिजेंट प्रॉक्सी और वेब अनलॉकर के साथ, Scrapeless एक शक्तिशाली API है जिसे विशेष रूप से उपयोगकर्ताओं को बिना अवरुद्ध किए खोज परिणामों को स्क्रैप करने में मदद करने के लिए डिज़ाइन किया गया है।

Scrapeless क्यों चुनें?

  • वैधता: Scrapeless खोज परिणामों तक पहुँचने का एक कानूनी और अनुपालन तरीका प्रदान करता है।
  • विश्वसनीयता: API पता लगाने से बचने के लिए परिष्कृत तकनीकों का उपयोग करता है, जिससे निर्बाध डेटा संग्रह सुनिश्चित होता है।
  • उपयोग में आसानी: Scrapeless एक सरल API प्रदान करता है जो Python के साथ आसानी से एकीकृत होता है, जिससे यह उन डेवलपर्स के लिए आदर्श है जिन्हें खोज परिणाम डेटा तक त्वरित पहुँच की आवश्यकता होती है।
  • अनुकूलन योग्य: आप अपनी आवश्यकताओं के अनुसार परिणामों को तैयार कर सकते हैं, जैसे कि सामग्री के प्रकार को निर्दिष्ट करना (जैसे, ऑर्गेनिक लिस्टिंग, विज्ञापन, आदि)।

Scrapeless Google खोज स्क्रैपर API - चरणों का उपयोग करना:

डेटा को लक्षित और विशिष्ट बनाने के लिए, हम इस लेख में Google रुझानों को एक प्रदर्शन के रूप में क्रॉल करते हैं।

वेब ब्लॉकिंग और Google खोज स्क्रैपिंग पर निराश?
हमारे समुदाय में शामिल हों और निःशुल्क परीक्षण के साथ प्रभावी समाधान प्राप्त करें!

चरण 1Scrapeless डैशबोर्ड में लॉग इन करें और "Google खोज API" पर जाएँ।

Google खोज API

चरण 2। बाईं ओर आपको आवश्यक कीवर्ड, क्षेत्र, भाषा, प्रॉक्सी और अन्य जानकारी कॉन्फ़िगर करें। यह सुनिश्चित करने के बाद कि सब कुछ ठीक है, "स्क्रैपिंग शुरू करें" पर क्लिक करें।

  • q: पैरामीटर उस क्वेरी को परिभाषित करता है जिसे आप खोजना चाहते हैं।
  • gl: पैरामीटर Google खोज के लिए उपयोग किए जाने वाले देश को परिभाषित करता है।
  • hl: पैरामीटर Google खोज के लिए उपयोग की जाने वाली भाषा को परिभाषित करता है।
स्क्रैपिंग शुरू करें

चरण 3। क्रॉलिंग परिणाम प्राप्त करें और उन्हें निर्यात करें।

क्रॉलिंग परिणाम प्राप्त करें

बस अपनी परियोजना में एकीकृत करने के लिए नमूना कोड की आवश्यकता है? हमने आपको कवर कर लिया है! या आप अपनी ज़रूरत की किसी भी भाषा के लिए हमारे API दस्तावेज़ीकरण पर जा सकते हैं।

  • Python:
Python Copy
import http.client
import json

conn = http.client.HTTPSConnection("api.scrapeless.com")
payload = json.dumps({
   "actor": "scraper.google.search",
   "input": {
      "q": "coffee",
      "hl": "en",
      "gl": "us"
   }
})
headers = {
   'Content-Type': 'application/json'
}
conn.request("POST", "/api/v1/scraper/request", payload, headers)
res = conn.getresponse()
data = res.read()
print(data.decode("utf-8"))
  • Golang
Go Copy
package main

import (
   "fmt"
   "strings"
   "net/http"
   "io/ioutil"
)

func main() {

   url := "https://api.scrapeless.com/api/v1/scraper/request"
   method := "POST"

   payload := strings.NewReader(`{
    "actor": "scraper.google.search",
    "input": {
        "q": "coffee",
        "hl": "en",
        "gl": "us"
    }
}`)

   client := &http.Client {
   }
   req, err := http.NewRequest(method, url, payload)

   if err != nil {
      fmt.Println(err)
      return
   }
   req.Header.Add("Content-Type", "application/json")

   res, err := client.Do(req)
   if err != nil {
      fmt.Println(err)
      return
   }
   defer res.Body.Close()

   body, err := ioutil.ReadAll(res.Body)
   if err != nil {
      fmt.Println(err)
      return
   }
   fmt.Println(string(body))
}

अंत शब्द

Google खोज परिणामों को स्क्रैप करना मुश्किल हो सकता है, लेकिन सही उपकरणों और तकनीकों के साथ, यह निश्चित रूप से प्राप्त करने योग्य है! बस याद रखें: यह सब कोड लिखने के बारे में नहीं है - यह जानने के बारे में है कि पता लगाने से कैसे बचा जाए, कानूनी सीमाओं का सम्मान करें, और जब आवश्यक हो तो विकल्प खोजें।

Scrapeless स्क्रैपिंग API Google खोज परिणामों को स्क्रैप करने की दुनिया में आपका सबसे अच्छा दोस्त हो सकता है!

साइन इन करें और अभी निःशुल्क परीक्षण प्राप्त करें!

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची