गूगल इमेजेज स्क्रैपर एपीआई: छवियों के वर्टिकल को JSON के रूप में पढ़ें
Advanced Data Extraction Specialist
मुख्य बातें:
- एक POST, कोई ब्राउज़र नहीं। Google Images डेटा एकल
POSTसे आता हैscraper.google.searchअभिनेता के साथtbm: "isch"। Scraper API पृष्ठ को रेंडर करता है और इसे सर्वर-साइड पर पार्स करता है; आप JSON फिर से पढ़ते हैं। - छवि वर्टिकल एक इनपुट फील्ड है।
tbm: "isch"Google खोज अभिनेता को इमेज वर्टिकल पर स्विच करता है;qआपकी क्वेरी लेकर आता है। सब कुछ और वैकल्पिक है। - हर जगह एक ऑथ हेडर। हर कॉल में
x-api-token: <आपकी कुंजी>होती है। एक खाता कुंजी अभिनेता और अन्य सभीscraper.*अभिनेताओं को कवर करती है। - पार्स किया गया JSON, शीर्ष स्तर पर फ्लैट किया गया। अभिनेता सीधे
metadata,search_information, औरsuggested_searchesलौटाता है — बिना कोईresultरैपर के।suggested_searchesमें प्रत्येक रिफाइनमेंट चिप में एक इनलाइनdata:image/jpeg;base64थंबनेल होता है। - पूर्ण छवि ग्रिड
metadata.rawUrlपर है। पार्स किया गया ऑब्जेक्ट रिफाइनमेंट चिप्स और खोज मेटाडेटा को सामने लाता है; यदि आपको हर छवि URL की आवश्यकता होती है जो पार्स किया गया ऑब्जेक्ट अलग नहीं करता है, तोmetadata.rawUrlस्टोर की गई, पूरी तरह से रेंडर की गई Google Images पृष्ठ पर इंगित करता है। - शुरुआत के लिए मुफ्त। नए Scrapeless खाते में मुफ्त Scraper API क्रेडिट शामिल होते हैं — app.scrapeless.com पर साइन अप करें।
परिचय: JSON के रूप में Images वर्टिकल पढ़ें
Google Images ओपन वेब पर सबसे बड़े दृश्य अनुक्रमणकों में से एक के शीर्ष पर बैठता है, और जो यह प्रदर्शित करता है, उस पर बहुत सारा काम निर्भर करता है: दृश्य उत्पाद अनुसंधान, ब्रांड और लोगो निगरानी, मॉडल प्रशिक्षण के लिए छवि डेटा सेट बनाना, एक क्वेरी का विभिन्न क्षेत्रों में कैसे रेंडर होता है, और बड़े पैमाने पर डिज़ाइन संदर्भ खींचना। क्वेरी इनपुट है; छवियों का ग्रिड और रिफाइनमेंट चिप्स की एक पंक्ति आउटपुट है।
प्रोग्रामेटिक रूप से उस आउटपुट को प्राप्त करना कठिन काम है। Images पृष्ठ JavaScript के माध्यम से रेंडर होता है, थंबनेल स्क्रिप्ट पेलोड के भीतर base64 के रूप में इनलाइन होते हैं, रिफाइनमेंट चिप्स और छवि URLs पृष्ठ के हाइड्रेशन डेटा में दबे होते हैं, और एक अनाम अनुरोध को ग्रिड के बजाय एक चुनौती मिलती है। एक हाथ से बनाया गया स्क्रैपर को पृष्ठ को रेंडर करना होता है, एंटी-बॉट परत को पार करना होता है और मार्कअप की रिवर्स-इंजीनियरिंग करनी होती है — तीन कार्य, जिनमें से सभी तब बदलते हैं जब Google एक डिजाइन को जारी करता है।
यह मार्गदर्शिका Scrapeless Scraper API पर scraper.google.search अभिनेता के माध्यम से चलती है, जो tbm: "isch" के साथ चलती है। एक HTTP अनुरोध एक पार्स किया हुआ ऑब्जेक्ट और रेंडर्ड इमेज पृष्ठ की एक स्टोर की गई प्रति लौटाता है। कोई ब्राउज़र नहीं चालाना, कोई पार्सर बनाए रखना नहीं। नीचे दिया गया काम किया गया उदाहरण वास्तव में q: "गोल्डन रिट्रीवर" कैप्चर है; एक सहायक Scraper API गाइड उसी अनुरोध आकार के साथ AI-उत्तर परिवार को कवर करता है।
Google Images के लिए Scraper API का चयन क्यों करें
- कोई ब्राउज़र, कोई पार्सर बनाए रखने की आवश्यकता नहीं। अभिनेता सर्वर पर Images पृष्ठ को रेंडर और पार्स करता है; आप संरचित फ़ील्ड प्राप्त करते हैं, न कि एक DOM को चलाने के लिए या एक base64 ब्लॉब को हाथ से डिकोड करने के लिए।
- एक इनपुट वर्टिकल को बदलता है। वही Google खोज अभिनेता वेब परिणाम और छवियां प्रदान करता है —
tbm: "isch"सेट करें और प्रतिक्रिया इमेज वर्टिकल के रूप में वापस आती है। - गृहस्थ ईग्रेस और रेंडरिंग अंतर्निहित हैं। भू-मार्ग और JavaScript रेंडरिंग अभिनेता के भीतर चलते हैं; आप
{ actor, input }भेजते हैं और परिणाम पढ़ते हैं। - पढ़ने के लिए एक आकार। पार्स किया हुआ Images ऑब्जेक्ट शीर्ष स्तर पर फ्लैट किया गया है, इसलिए एक बार लिखा गया एक क्लाइंट रैपर बिना किसी अंदरूनी लिफाफों को अनव्रैप किए प्रतिक्रिया को संभालता है।
फ्री प्लान पर अपना API की प्राप्त करें app.scrapeless.com पर। Google खोज अभिनेता Deep SerpApi का हिस्सा है, जो प्राइसिंग कैटलॉग में sits करती है।
पूर्वापेक्षाएँ
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
- त्वरित परीक्षण के लिए
curl, या नीचे दिए गए क्लाइंट के लिए Python 3.10+। - HTTP और JSON के साथ बुनियादी परिचय।
अपनी कुंजी को पर्यावरण में स्टोर करें ताकि यह कभी भी कोड में न आए:
bash
export SCRAPELESS_API_KEY=your_api_token_here
अनुरोध
Google Images साइट/SERP अंत बिंदु का उपयोग करता है। आप अभिनेता का नाम देते हैं, इसे एक इनपुट सौंपते हैं, और हेडर में अपनी कुंजी भेजते हैं।
- अंत बिंदु:
POST https://api.scrapeless.com/api/v1/scraper/request - अभिनेता:
scraper.google.search - ऑथ हेडर:
x-api-token: $SCRAPELESS_API_KEY
बॉडी है { "actor": "<name>", "input": { … } }। Images वर्टिकल के लिए इनपुट दो फ़ील्ड हैं:
json
{
"actor": "scraper.google.search",
"input": { "q": "गोल्डन रिट्रीवर", "tbm": "isch" }
}
| इनपुट फील्ड | आवश्यक | विवरण |
|---|---|---|
q |
हाँ | छवि खोज क्वेरी स्ट्रिंग |
tbm |
हाँ | खोज वर्टिकल — "isch" Google छवियों का चयन करता है |
hl |
नहीं | UI भाषा, उदाहरण के लिए "en" |
gl |
नहीं | देश / स्थान, उदाहरण के लिए "us" |
google_domain |
नहीं | Google डोमेन, उदाहरण के लिए ".google.com" |
उदाहरण — कर्ल और पायथन
सबसे तेज़ जांच एकल कर्ल कॉल है:
bash
curl -sS -X POST https://api.scrapeless.com/api/v1/scraper/request \
-H "Content-Type: application/json" \
-H "x-api-token: ${SCRAPELESS_API_KEY}" \
-d '{
"actor": "scraper.google.search",
"input": { "q": "गोल्डन रिट्रीवर", "tbm": "isch" }
}'
पायथन में वही अनुरोध, जो प्रतिक्रिया को सीधे एक dict में पार्स करता है:
python
import os
import json
import requests
ENDPOINT = "https://api.scrapeless.com/api/v1/scraper/request"
def scrape_google_images(query: str) -> dict:
resp = requests.post(
ENDPOINT,
headers={
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
},
json={"actor": "scraper.google.search", "input": {"q": query, "tbm": "isch"}},
timeout=120,
)
resp.raise_for_status()
return resp.json()
if __name__ == "__main__":
data = scrape_google_images("गोल्डन रिट्रीवर")
# google.search शीर्ष स्तर पर पार्स किए गए परिणाम को समतल करता है,
# इसलिए data.get("result", data) पूरी प्रतिक्रिया पर वापस लौटता है।
print(json.dumps(data.get("result", data), indent=2, ensure_ascii=False))
क्योंकि Google खोज अभिनेता अपने पार्स किए गए आउटपुट को शीर्ष स्तर पर समतल करता है, वहाँ कोई result कुंजी नहीं है जिसे पहुँचा जा सके — data.get("result", data) केवल पूरी प्रतिक्रिया लौटाता है, और आप सीधे search_information और suggested_searches पढ़ते हैं।
फ्री योजना पर अपना API कुंजी प्राप्त करें: app.scrapeless.com
आपको पीछे क्या मिलता है
छवि वर्टिकल के लिए अभिनेता एक Scrapeless metadata लिफाफा, search_information जो Google प्रतिध्वनित करता है, और छवि-परिष्करण चिप्स की पंक्ति (suggested_searches) जो Google ग्रिड के ऊपर प्रदर्शित करता है, को प्रदर्शित करता है। प्रत्येक चिप अपनी खुद की इनलाइन थंबनेल को ले जाती है। यह q: "गोल्डन रिट्रीवर", tbm: "isch" के लिए असली कैप्चर है:
json
// q:"गोल्डन रिट्रीवर", tbm:"isch" के लिए असली कैप्चर।
// बेस64 थंबनेल्स ट्रिम किए गए; suggested_searches 5 चिप्स में से 2 पर संक्षिप्त किए गए — चित्रात्मक नमूना।
{
"metadata": {
"engine": "google.search",
"rawUrl": "https://api.scrapeless.com/storage/scrapeless.scraper.google.search/…_1781025000.html"
},
"pagination": {},
"search_information": {
"organic_results_state": "सटीक वर्तनी के लिए परिणाम",
"query_displayed": "गोल्डन रिट्रीवर",
"total_results": 0,
"time_taken_displayed": ""
},
"suggested_searches": [
{
"name": "पप्पी",
"link": "https://www.google.com/search?sca_esv=…&gl=us&q=गोल्डन+रिट्रीवर+पप्पी&uds=…&udm=2&sa=X&…",
"uds": "",
"q": "पप्पी गोल्डन रिट्रीवर",
"thumbnail": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/…"
},
{
"name": "क्यूट",
"link": "https://www.google.com/search?sca_esv=…&gl=us&q=cute+गोल्डन+रिट्रीवर&uds=…&udm=2&sa=X&…",
"uds": "",
"q": "क्यूट गोल्डन रिट्रीवर",
"thumbnail": "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/…"
}
]
}
फीलด์ द्वारा फील्ड:
| फील्ड | प्रकार | यह क्या रखता है |
|---|---|---|
metadata.engine |
स्ट्रिंग | अनुरोध को सेवा देने वाला अभिनेता इंजन — "google.search" |
metadata.rawUrl |
स्ट्रिंग (URL) | पूरी तरह से प्रस्तुत Google छवियों का पृष्ठ; इसे पूरी छवि ग्रिड के लिए लाएं |
pagination |
ऑब्जेक्ट | pagination कर्सर; इस कैप्चर पर एक खाली ऑब्जेक्ट |
search_information.query_displayed |
स्ट्रिंग | क्वेरी जिसे Google ने वापस प्रतिध्वनित किया ("गोल्डन रिट्रीवर") |
search_information.organic_results_state |
स्ट्रिंग | स्पेलिंग / परिणाम स्थिति ("सटीक वर्तनी के लिए परिणाम") |
search_information.total_results |
संख्या | परिणाम की गिनती जिसे Google ने रिपोर्ट किया — यहाँ छवि वर्टिकल के लिए 0 |
search_information.time_taken_displayed |
स्ट्रिंग | Google का टाइमिंग स्ट्रिंग; इस कैप्चर पर खाली |
suggested_searches[] |
ऐरे | ग्रिड के ऊपर प्रदर्शित छवि-परिष्करण चिप्स |
suggested_searches[].name |
स्ट्रिंग | चिप लेबल ("पप्पी", "क्यूट", "लैब्राडोर", ...) |
suggested_searches[].q |
स्ट्रिंग | परिष्कृत क्वेरी जो चिप चलाता है ("पप्पी गोल्डन रिट्रीवर") |
suggested_searches[].link |
स्ट्रिंग (URL) | उस परिष्करण के लिए Google छवियों की खोज URL (udm=2 Google का छवि-वर्टिकल पैरामीटर है) |
suggested_searches[].uds |
स्ट्रिंग | Google का uds चिप टोकन; इस कैप्चर पर खाली |
suggested_searches[].thumbnail |
स्ट्रिंग | चिप के लिए एक इनलाइन data:image/jpeg;base64 पूर्वावलोकन |
आकार के बारे में कुछ ईमानदार टिप्पणियाँ:
- पार्स की गई वस्तु सुधार चिप्स को ऊर्ध्वाधर
images_resultsसरणी नहीं दिखाती है।ischऊर्ध्वाधर के लिए अभिनेताsuggested_searchesको लौटाता है औरmetadata.rawUrlपर रेंडर की गई पृष्ठ को। जब आपको ग्रिड पर प्रत्येक छवि का URL चाहिए, तोmetadata.rawUrlलाएं — वह संग्रहीत पृष्ठ पूरी सेट को रखता है जो पार्स की गई वस्तु समतल नहीं करती है। - थंबनेल इनलाइन base64 हैं। प्रत्येक चिप का
thumbnailएक संपूर्णdata:image/jpeg;base64मान है, जो बिना किसी दूसरे अनुरोध के उपयोगी है; फिक्स्चर उन्हें पठनीयता के लिए काटता है। search_informationवह दर्शाता है जो गूगल दिखाता है।total_resultsऔरtime_taken_displayedछवि ऊर्ध्वाधर पर0और खाली लौट सकते हैं, जहां गूगल "N परिणामों के बारे में" रेखा को नहीं दिखाता, जो वह वेब खोज के लिए दिखाता है।- प्रति-चिप क्षेत्रों को नल जैसी मानें।
udsहर चिप पर मौजूद है लेकिन इस कैप्चर में खाली है, और चिप की संख्या क्वेरी के अनुसार बदलती है — वहां जो है उसे पढ़ें न कि एक निश्चित लंबाई मान लें।
निष्कर्ष
गूगल इमेजेज को पढ़ने का अर्थ एक निर्णय और एक अनुरोध तक पहुंचना है: scraper.google.search अभिनेता को tbm: "isch" के साथ इमेज ऊर्ध्वाधर पर इंगित करें, अपने { actor, input } के साथ x-api-token भेजें, और पार्स की गई फ़ील्ड को वापस पढ़ें। प्रतिक्रिया शीर्ष स्तर पर सपाट होती है - metadata, search_information, और उनके इनलाइन थंबनेल के साथ suggested_searches सुधार चिप्स - और metadata.rawUrl पूरी ग्रिड के लिए पूरी रेंडर की गई पृष्ठ को रखता है। ग्राहक परिवेषक को एक बार लिखें, इसे उस क्वेरी पर इंगित करें जिसकी आपको आवश्यकता है, और यही आकार तब AI उत्तर कार्यकर्ताओं को कवर करता है जब पाइपलाइन बढ़ती है।
क्या आप अपने AI-शक्ति वाले इमेज डेटा पाइपलाइन को बनाने के लिए तैयार हैं?
हमारे समुदाय में शामिल हों ताकि एक मुफ्त योजना का दावा कर सकें और उन डेवलपर्स से जुड़े जो गूगल इमेजेज पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram।
फ्री स्क्रैपर API क्रेडिट के लिए app.scrapeless.com पर साइन अप करें, और scraper.google.search अभिनेता को उन क्वेरी, भाषाओं और क्षेत्रों पर इंगित करें जिनकी आपकी इमेज पाइपलाइन को आवश्यकता है।
अक्सर पूछे जाने वाले प्रश्न
Q: क्या गूगल इमेजेज को स्क्रैप करना कानूनी है?
अभिनेता सार्वजनिक रूप से दृश्यमान डेटा एकत्र करता है। नियम न्याय क्षेत्र के अनुसार भिन्न होते हैं और गूगल की सेवा की शर्तों के अनुसार भिन्न होते हैं, इसलिए अपनी उपयोग मामले के लिए स्केल पर चलाने से पहले प्रासंगिक ToS की समीक्षा करें और सलाह प्राप्त करें। कभी भी GDPR या CCPA के तहत संरक्षित व्यक्तिगत डेटा एकत्र न करें, और व्यक्तिगत छवियों से जुड़े अधिकारों का सम्मान करें।
Q: मैं कैसे प्रमाणीकरण करूं?
प्रत्येक अनुरोध में हेडर x-api-token: <आपकी कुंजी> होती है। एक खाता कुंजी scraper.google.search और प्रत्येक अन्य अभिनेता के लिए कार्य करती है। app.scrapeless.com पर मुफ्त योजना पर एक कुंजी बनाएं।
Q: मैं वेब परिणामों से इमेज में कैसे स्विच करूं?
input में tbm: "isch" सेट करें। वही scraper.google.search अभिनेता डिफ़ॉल्ट रूप से वेब SERP की सेवा करता है; tbm: "isch" इमेज ऊर्ध्वाधर का चयन करता है और पार्स की गई आकार को इमेज-सुधार चिप्स और रेंडर की गई इमेज पृष्ठ में बदल देता है।
Q: वास्तविक इमेज URLs कहाँ हैं?
पार्स की गई वस्तु सुधार चिप्स (suggested_searches) और खोज मेटाडेटा को सतह पर लाती है। इमेज URLs का पूर्ण ग्रिड metadata.rawUrl में संग्रहीत पृष्ठ में है — जब आपको परिणाम पृष्ठ पर प्रत्येक इमेज की आवश्यकता होती है, तो उस URL को लाएं, न कि केवल सुधार पंक्ति।
Q: क्या मैं परिणामों को भाषा या देश द्वारा संकीर्ण कर सकता हूँ?
हाँ। वैकल्पिक hl (यूआई भाषा), gl (देश / स्थानीय), और google_domain इनपुट अनुरोध का दायरा निर्धारित करते हैं — उदाहरण के लिए { "q": "golden retriever", "tbm": "isch", "hl": "en", "gl": "us" }।
Q: क्या मुझे प्रॉक्सी की आवश्यकता है?
नहीं। आवासीय बाहर निकलने और भू-निर्देशन अभिनेता में शामिल होते हैं — आप इनपुट भेजते हैं, और अभिनेता नेटवर्क और रेंडरिंग परत को संभालता है।
Q: क्या मैं बिना किसी SDK या AI एजेंट के इसे चला सकता हूँ?
हाँ। यह सामान्य HTTP है — curl, Python requests, Node fetch, या किसी भी भाषा के साथ HTTP क्लाइंट सीधे POST /api/v1/scraper/request के खिलाफ काम करते हैं। कोई SDK आवश्यक नहीं है।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



