Scrapeless का उपयोग करके Google Lens परिणामों को कैसे स्क्रैप करें

Emily Chen

Advanced Data Extraction Specialist

10-Mar-2025

Google Lens क्या है?

Google Lens एक कृत्रिम बुद्धिमत्ता और छवि पहचान तकनीक पर आधारित एप्लीकेशन है जो कैमरे या चित्रों के माध्यम से वस्तुओं, पाठ, स्थलों और अन्य सामग्री की पहचान कर सकता है और प्रासंगिक जानकारी प्रदान कर सकता है।

क्या Google Lens से डेटा खुरचना कानूनी है?

Google Lens डेटा को स्क्रैप करना अवैध नहीं है, लेकिन कई कानूनी और नैतिक दिशानिर्देश हैं जिनका पालन करने की आवश्यकता है। उपयोगकर्ताओं को यह सुनिश्चित करने के लिए Google की सेवा की शर्तें, डेटा गोपनीयता कानून और बौद्धिक संपदा अधिकारों को समझना चाहिए कि उनकी गतिविधियाँ अनुपालन में हैं। सर्वोत्तम प्रथाओं का पालन करके और कानूनी विकास के बारे में सूचित रहकर, आप वेब स्क्रैपिंग से जुड़े कानूनी मुद्दों के जोखिम को कम कर सकते हैं।

Google Lens को स्क्रैप करने में चुनौतियाँ

उन्नत एंटी-बॉट तकनीक: Google नेटवर्क ट्रैफ़िक पैटर्न की निगरानी करता है। क्रॉलर से बड़ी संख्या में दोहराव वाले अनुरोधों का जल्दी पता लगाया जा सकता है, जिससे IP प्रतिबंध लग जाते हैं, जो क्रॉलिंग प्रक्रिया को रोक देते हैं।
अनुशंसित पठन: एंटी-बॉट: यह क्या है और इससे कैसे बचें
जावास्क्रिप्ट - रेंडर्ड सामग्री: Google Lens के लिए अधिकांश डेटा जावास्क्रिप्ट द्वारा गतिशील रूप से उत्पन्न होता है, जो पारंपरिक क्रॉलर के लिए दुर्गम है, जिसके लिए Puppeteer या Selenium जैसे हेडलेस ब्राउज़र के उपयोग की आवश्यकता होती है, लेकिन इससे जटिलता और संसाधन खपत बढ़ जाती है।
CAPTCHA सुरक्षा: Google मानव उपयोगकर्ताओं को प्रमाणित करने के लिए CAPTCHA का उपयोग करता है। क्रॉलर को CAPTCHA चुनौतियों का सामना करना पड़ सकता है जिन्हें प्रोग्रामेटिक रूप से हल करना मुश्किल है।
बार-बार वेबसाइट अपडेट: Google नियमित रूप से Google Lens की संरचना और लेआउट को बदलता है। क्रॉलिंग कोड जल्दी से पुराना हो सकता है, और डेटा निष्कर्षण के लिए उपयोग किए जाने वाले XPath या CSS चयनकर्ता काम करना बंद कर सकते हैं। निरंतर निगरानी और अपडेट की आवश्यकता है।

Python के साथ Google Lens को स्क्रैप करने के लिए चरण गाइड

चरण 1. पर्यावरण को कॉन्फ़िगर करें

Python: सॉफ्टवेयर Python चलाने का मूल है। आप नीचे दिखाए गए अनुसार आधिकारिक वेबसाइट से हमें आवश्यक संस्करण डाउनलोड कर सकते हैं। हालाँकि, नवीनतम संस्करण डाउनलोड करने की अनुशंसा नहीं की जाती है। आप नवीनतम संस्करण से पहले के 1.2 संस्करण डाउनलोड कर सकते हैं।

Python IDE: Python को सपोर्ट करने वाला कोई भी IDE काम करेगा, लेकिन हम PyCharm की सलाह देते हैं। यह विशेष रूप से Python के लिए डिज़ाइन किया गया एक विकास उपकरण है। PyCharm संस्करण के लिए, हम मुफ्त PyCharm कम्युनिटी संस्करण की अनुशंसा करते हैं

नोट: यदि आप विंडोज़ उपयोगकर्ता हैं, तो इंस्टॉलेशन विज़ार्ड के दौरान "Add python.exe to PATH" विकल्प को चेक करना न भूलें। यह विंडोज़ को टर्मिनल में Python और कमांड का उपयोग करने की अनुमति देगा। चूँकि Python 3.4 या बाद के संस्करण में यह डिफ़ॉल्ट रूप से शामिल है, इसलिए आपको इसे मैन्युअल रूप से स्थापित करने की आवश्यकता नहीं है।

अब आप जांच सकते हैं कि क्या Python स्थापित है, टर्मिनल या कमांड प्रॉम्प्ट खोलकर और निम्न कमांड दर्ज करके:

Copy

python --version

चरण 2. निर्भरताएँ स्थापित करें

प्रोजेक्ट निर्भरताओं को प्रबंधित करने और अन्य Python प्रोजेक्ट्स के साथ संघर्ष से बचने के लिए वर्चुअल एन्वायरमेंट बनाने की अनुशंसा की जाती है। टर्मिनल में प्रोजेक्ट निर्देशिका पर जाएँ और google_lens नामक वर्चुअल एन्वायरमेंट बनाने के लिए निम्न कमांड निष्पादित करें:

Copy

python -m venv google_lens

अपने सिस्टम के आधार पर वर्चुअल एन्वायरमेंट को सक्रिय करें:

विंडोज़:

Copy

google_lens_env\Scripts\activate

MacOS/Linux:

Copy

source google_lens_env/bin/activate

वर्चुअल एन्वायरमेंट को सक्रिय करने के बाद, वेब स्क्रैपिंग के लिए आवश्यक Python लाइब्रेरी स्थापित करें। Python में अनुरोध भेजने के लिए लाइब्रेरी requests है, और डेटा स्क्रैप करने के लिए मुख्य लाइब्रेरी BeautifulSoup4 है। उन्हें निम्न कमांड का उपयोग करके स्थापित करें:

Copy

pip install requests
pip install beautifulsoup4
pip install playwright

चरण 3. डेटा स्क्रैप करें

अपने ब्राउज़र में Google lens(https://www.google.com/?olud) खोलें और "https://i.imgur.com/HBrB8p0.png" खोजें। नीचे खोज परिणाम है:
Scrape Data
शीर्षक और छवि जानकारी स्क्रैप करें
Scrape title and image info

कुछ छवियों को बेस64 में एन्कोड किया जाता है, जबकि अन्य HTTP के माध्यम से लिंक किए जाते हैं, जैसे:

शीर्षक और छवि जानकारी प्राप्त करने का कोड इस प्रकार है：

Copy

# लेंस जानकारी को एक डिक्शनरी में संग्रहीत करें
img_info = {
    'title': item.find("span").text,
    'thumbnail': item.find("img").attrs['src'],
}

चूँकि हमें केवल एक नहीं, बल्कि पृष्ठ पर सभी डेटा को स्क्रैप करने की आवश्यकता है, इसलिए हमें लूप के माध्यम से और उपरोक्त डेटा को स्क्रैप करने की आवश्यकता है। पूर्ण कोड इस प्रकार है:

Copy

import json

from bs4 import BeautifulSoup
from playwright.sync_api import sync_playwright


def scrape(url: str) -> str:
    with sync_playwright() as p:
        # ब्राउज़र लॉन्च करें और कुछ सुविधाओं को अक्षम करें जो पता लगाने का कारण बन सकती हैं
        browser = p.chromium.launch(
            headless=True,
            args=[
                "--disable-blink-features=AutomationControlled",
                "--disable-dev-shm-usage",
                "--disable-gpu",
                "--disable-extensions",
            ],
        )
        context = browser.new_context(
            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36",
            bypass_csp=True,
        )
        page = context.new_page()
        page.goto(url)
        page.wait_for_selector("body", state="attached")
        # यह सुनिश्चित करने के लिए 2 सेकंड तक प्रतीक्षा करें कि पृष्ठ पूरी तरह से लोड या रेंडर किया गया है
        page.wait_for_timeout(2000)
        html_content = page.content()
        browser.close()
    return html_content


def main():
    url = "https://lens.google.com/uploadbyurl?url=https%3A%2F%2Fi.imgur.com%2FHBrB8p0.png"
    html_content = scrape(url)
    soup = BeautifulSoup(html_content, 'html.parser')
    # पृष्ठ का मुख्य डेटा प्राप्त करें
    items = soup.find('div', {'jscontroller': 'M3v8m'}).find("div")
    # परिपत्र असेंबली
    assembly = lens_info(items)
    # परिणामों को JSON फ़ाइल में सहेजें
    with open('google_lens_data.json', 'w') as json_file:
        json.dump(assembly, json_file, indent=4)


def lens_info(items):
    lens_data = []
    for item in items:
        # लेंस जानकारी को एक डिक्शनरी में संग्रहीत करें
        img_info = {
            'title': item.find("span").text,
            'thumbnail': item.find("img").attrs['src'],
        }
        lens_data.append(img_info)
    return lens_data


if __name__ == "__main__":
    main()

चरण 4. परिणाम आउटपुट करें

आपकी PyCharm निर्देशिका में google_lens_data.json नाम की एक फ़ाइल बन जाएगी। आउटपुट इस प्रकार है (आंशिक उदाहरण):

Copy

[
  {
    "title": "Danny DeVito - Wikipedia",
    "thumbnail": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAkGBxAQEhAQEBAQEB
  },
  {
    "title": "Devito Danny Royalty-Free Images, Stock Photos & Pictures | Shutterstock",
    "thumbnail": "https://encrypted-tbn1.gstatic.com/images?q=tbn:ANd9GcSO6Pkv_UmXiianiCh52nD5s89d7KrlgQQox-f-K9FtXVILvHh_"
  },
  {
    "title": "DATA | Celebrity Stats | Page 62",
    "thumbnail": "https://encrypted-tbn3.gstatic.com/images?q=tbn:ANd9GcQ9juRVpW6sjE3OANTKIJzGEkiwUpjCI20Z1ydvJBCEDf3-NcQE"
  },
  {
    "title": "Danny DeVito, Grand opening of Buca di Beppo italian restaurant on Universal City Walk Universal City, California - 28.01.09 Stock Photo - Alamy",
    "thumbnail": "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQq_07f-Unr7Y5BXjSJ224RlAidV9pzccqjucD4VF7VkJEJJqBk"
  }
]

अधिक कुशल उपकरण: Scrapeless के साथ Google Lens परिणामों को कैसे स्क्रैप करें

Scrapeless एक शक्तिशाली उपकरण प्रदान करता है जो डेवलपर्स को जटिल कोड लिखे बिना आसानी से Google Lens खोज परिणामों को स्क्रैप करने में मदद करता है। यहाँ आपके Python क्रॉलर उपकरण में Scrapeless API को एकीकृत करने के विस्तृत चरण दिए गए हैं:

चरण 1: Scrapeless के लिए साइन अप करें और एक API कुंजी प्राप्त करें

यदि आपके पास अभी तक Scrapeless खाता नहीं है, तो Scrapeless वेबसाइट पर जाएँ और साइन अप करें।
साइन अप करने के बाद, अपने डैशबोर्ड में लॉग इन करें।
डैशबोर्ड में, API कुंजी प्रबंधन पर जाएँ और API कुंजी बनाएँ पर क्लिक करें। उत्पन्न API कुंजी की प्रतिलिपि बनाएँ, जो Scrapeless API को कॉल करते समय आपकी प्रमाणीकरण क्रेडेंशियल होगी।

चरण 2: Scrapeless API को एकीकृत करने के लिए एक Python स्क्रिप्ट लिखें

Scrapeless API का उपयोग करके Google Lens परिणामों को स्क्रैप करने के लिए एक नमूना कोड इस प्रकार है:

Copy

import json
import requests

class Payload:
    def __init__(self, actor, input_data):
        self.actor = actor
        self.input = input_data

def send_request():
    host = "api.scrapeless.com"
    url = f"https://{host}/api/v1/scraper/request"
    token = "your_token"

    headers = {
        "x-api-token": token
    }

    input_data = {
        engine: "google_lens",
        hl: "en",
        country: "jp",
        url: "https://s3.zoommer.ge/zoommer-images/thumbs/0170510_apple-macbook-pro-13-inch-2022-mneh3lla-m2-chip-8gb256gb-ssd-space-grey-apple-m25nm-apple-8-core-gpu_550.jpeg",
    }

    payload = Payload("scraper.google.lens", input_data)

    json_payload = json.dumps(payload.__dict__)

    response = requests.post(url, headers=headers, data=json_payload)

    if response.status_code != 200:
        print("Error:", response.status_code, response.text)
        return

    print("body", response.text)


if __name__ == "__main__":
    send_request()

टिप्पणियाँ
API कुंजी सुरक्षा: कृपया सुनिश्चित करें कि आप अपनी API कुंजी को सार्वजनिक कोड रिपॉजिटरी में उजागर न करें।
क्वेरी अनुकूलन: अधिक सटीक परिणाम प्राप्त करने के लिए अपनी आवश्यकताओं के अनुसार क्वेरी पैरामीटर समायोजित करें। API पैरामीटर के बारे में अधिक जानकारी के लिए, आप Scrapeless के आधिकारिक API दस्तावेज़ की जाँच कर सकते हैं

Google Lens को स्क्रैप करने के लिए Scrapeless क्यों चुनें

Scrapeless एक शक्तिशाली AI-संचालित वेब स्क्रैपिंग उपकरण है जिसे कुशल और स्थिर वेब स्क्रैपिंग के लिए डिज़ाइन किया गया है।

1. वास्तविक समय डेटा और उच्च-गुणवत्ता वाले परिणाम

Scrapeless वास्तविक समय Google Lens खोज परिणाम प्रदान करता है और 1-2 सेकंड के भीतर Google Lens खोज परिणाम वापस कर सकता है। सुनिश्चित करें कि उपयोगकर्ताओं को जो डेटा मिलता है वह हमेशा अद्यतित रहता है।

2. किफायती मूल्य

Scrapeless की कीमत बहुत प्रतिस्पर्धी है, केवल $0.1 प्रति 1,000 क्वेरी की कीमत के साथ।

3. शक्तिशाली फ़ंक्शन समर्थन

Scrapeless कई खोज प्रकारों का समर्थन करता है, जिसमें 20 से अधिक Google खोज परिणाम परिदृश्य शामिल हैं। यह JSON प्रारूप में संरचित डेटा वापस कर सकता है, जो उपयोगकर्ताओं के लिए जल्दी से पार्स करने और उपयोग करने के लिए सुविधाजनक है।

Scrapeless Deep SerpAPI: एक शक्तिशाली वास्तविक समय खोज डेटा समाधान

Scrapeless Deep SerpApi एक वास्तविक समय खोज डेटा प्लेटफ़ॉर्म है जिसे AI अनुप्रयोगों और पुनर्प्राप्ति-वर्धित पीढ़ी (RAG) मॉडल के लिए डिज़ाइन किया गया है। यह वास्तविक समय, सटीक और संरचित Google खोज परिणाम डेटा प्रदान करता है, जो 20 से अधिक Google SERP प्रकारों का समर्थन करता है, जिसमें Google खोज, Google रुझान, Google खरीदारी, Google उड़ानें, Google होटल, Google मानचित्र आदि शामिल हैं।

मुख्य विशेषताएं

वास्तविक समय डेटा अद्यतन: पिछले 24 घंटों के भीतर डेटा अपडेट पर आधारित, जानकारी की समयबद्धता और सटीकता सुनिश्चित करना।
बहु-भाषा और भू-स्थान समर्थन: बहु-भाषा और भू-स्थान का समर्थन करता है, और उपयोगकर्ता के स्थान, डिवाइस प्रकार और भाषा के आधार पर खोज परिणामों को अनुकूलित कर सकता है।
तेज़ प्रतिक्रिया: औसत प्रतिक्रिया समय केवल 1-2 सेकंड है, जो उच्च-आवृत्ति और बड़े पैमाने पर डेटा पुनर्प्राप्ति के लिए उपयुक्त है।
सहज एकीकरण: Python, Node.js, Golang आदि जैसी मुख्यधारा की प्रोग्रामिंग भाषाओं के साथ संगत, मौजूदा परियोजनाओं में एकीकृत करना आसान है।
लागत प्रभावी: $0.1 प्रति 1,000 क्वेरी की कीमत के साथ, यह बाजार में सबसे किफायती SERP समाधान है।

विशेष ऑफ़र

नि:शुल्क परीक्षण: एक नि:शुल्क परीक्षण प्रदान किया जाता है, और उपयोगकर्ता सभी सुविधाओं का अनुभव कर सकते हैं।
डेवलपर समर्थन कार्यक्रम: पहले 100 उपयोगकर्ता $50 (500,000 क्वेरी) के मुफ्त API कॉल कोटा प्राप्त कर सकते हैं, जो परीक्षण और विस्तार परियोजनाओं के लिए उपयुक्त है।

यदि आपके कोई प्रश्न हैं या अनुकूलन आवश्यकताओं की आवश्यकता है, तो आप Discord लिंक पर क्लिक करके Liam से संपर्क कर सकते हैं।

निष्कर्ष

इस लेख में, हमने विस्तार से बताया कि Google Lens खोज परिणामों को क्रॉल करने के लिए Scrapeless का उपयोग कैसे करें। Scrapeless द्वारा प्रदान किए गए शक्तिशाली API के साथ, डेवलपर्स और शोधकर्ता जटिल कोड लिखे बिना या एंटी-क्रॉलिंग तंत्र के बारे में चिंता किए बिना आसानी से वास्तविक समय, उच्च-गुणवत्ता वाले दृश्य डेटा प्राप्त कर सकते हैं। Scrapeless की दक्षता और लचीलापन इसे Google Lens डेटा को संसाधित करने के लिए एक आदर्श उपकरण बनाता है।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

स्क्रेपलेस MCP सर्वर आधिकारिक रूप से लाइव है! अपना अंतिम एआई-वेब कनेक्टर बनाएं

स्क्रेपलेस MCP सर्वर कैसे LLMs को वास्तविक समय में वेब ब्राउज़िंग और स्क्रेपिंग क्षमताएं देता है, यह जानें। सीखें कि कैसे AI एजेंट बनाएँ जो निर्बाध रूप से गतिशील वेब सामग्री को खोजें, निकालें और बातचीत करें।

Michael Lee

17-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए कुशल और अनुपालन शिपमेंट डेटा स्क्रैपिंग

स्क्रेपलेस USPS टूल का उपयोग करके ERP, OMS, और SaaS प्लेटफॉर्म के लिए दक्षता और अनुपालन के साथ संरचित, वास्तविक समय की ट्रैकिंग डेटा प्राप्त करना सीखें।

Emily Chen

02-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए प्रभावी और अनुपालन शिपमेंट डेटा स्क्रैपिंग

Scrapeless प्रस्तुत करते हैं: इंटेलिजेंट वेब स्क्रैपिंग टूलकिट आधिकारिक तौर पर लॉन्च हो गया है — डेटा स्क्रैपिंग के एक नए युग का अनुभव करें!

Scrapeless विश्व स्तर पर लॉन्च हो रहा है! यह एक उन्नत वेब स्क्रैपिंग समाधान है जो उद्यमों को गति, बुद्धिमत्ता और स्थिरता के साथ डेटा अधिग्रहण को सरल बनाने में मदद करने के लिए डिज़ाइन किया गया है।

Alex Johnson

06-Jan-2025

Scrapeless — डेटा स्क्रैपिंग का एक नया युग शुरू करें!

सूची