🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस समुदाय में शामिल हों और अपने निःशुल्क परीक्षण का दावा करें!
ब्लॉग पर वापस जाएँ

Amazon Scraping API - पायथन के साथ Amazon Scraping

Emily Chen
Emily Chen

Advanced Data Extraction Specialist

31-Dec-2024

Amazon पर प्रतिस्पर्धात्मक लाभ प्राप्त करना चाहते हैं? चाहे आप कीमतों पर नज़र रख रहे हों, उत्पाद रुझानों का विश्लेषण कर रहे हों, या बाज़ार अनुसंधान कर रहे हों, आगे रहने की कुंजी Amazon डेटा को प्रभावी ढंग से स्क्रैप करना है। लेकिन Amazon से उपयोगी जानकारी निकालना मुश्किल हो सकता है- खासकर साइट संरचना में बार-बार होने वाले बदलावों, एंटी-बॉट उपायों और IP ब्लॉकिंग के साथ। यहीं पर Amazon स्क्रैपिंग API काम आता है। इस गाइड में, हम आपको दिखाएंगे कि पायथन का उपयोग करके Amazon उत्पाद डेटा को कैसे स्क्रैप किया जाए, जिससे दुनिया के सबसे बड़े ई-कॉमर्स प्लेटफ़ॉर्म से मूल्यवान डेटा और जानकारी एकत्र करना पहले से कहीं अधिक आसान हो जाता है।

Amazon स्क्रैपिंग API क्या है?

Amazon वेब स्क्रैपिंग API एक दूरस्थ सर्वर की तरह है जो आपको Amazon डेटा एकत्र करने में मदद करता है। ऑपरेशन सरल है - आप लक्ष्य URL और अन्य मापदंडों जैसे भू-स्थान वाले API एंडपॉइंट पर एक अनुरोध भेजते हैं। फिर API आपके लिए वेबसाइट पर जाता है।

Amazon निम्नलिखित डेटा प्रकारों को क्रॉल करने का समर्थन करता है:

1. उत्पाद:

  • उत्पाद जानकारी: क्रॉल की जा सकने वाली सामग्री में उत्पाद का नाम, विवरण, मूल्य, छवि URL, ASIN (Amazon मानक पहचान संख्या), ब्रांड आदि जैसी बुनियादी जानकारी शामिल है।

  • बिक्री डेटा: जैसे उत्पाद रैंकिंग, बिक्री की मात्रा और टिप्पणियाँ, आदि।

2. विक्रेता:

  • विक्रेता की जानकारी: आप विक्रेता का नाम, व्यापारी ID और उनके द्वारा बेचे जाने वाले उत्पादों की संबंधित जानकारी प्राप्त कर सकते हैं।
  • विक्रेता रैंकिंग: विभिन्न विक्रेताओं से उत्पादों को क्रॉल करके, आप प्रत्येक विक्रेता के बाजार प्रदर्शन और किसी विशिष्ट श्रेणी में उनकी प्रतिस्पर्धात्मकता का विश्लेषण कर सकते हैं।

3. कीवर्ड:

  • कीवर्ड खोज परिणाम: आप विशिष्ट कीवर्ड (जैसे "लैपटॉप" या "एनीम फिगर") के आधार पर संबंधित उत्पाद सूचियों और उनकी विस्तृत जानकारी को क्रॉल कर सकते हैं।
Amazon स्क्रैपिंग API क्या है

Amazon स्क्रैपिंग के सामान्य उपयोग के मामले

Amazon स्क्रैपिंग व्यवसायों और विपणक के लिए विभिन्न उद्देश्यों की पूर्ति करता है:
1. मूल्य निगरानी: उत्पाद की कीमतों को स्क्रैप करके, व्यवसाय प्रतियोगी मूल्य निर्धारण पर नज़र रख सकते हैं और तदनुसार अपनी रणनीति को समायोजित कर सकते हैं।

2. उत्पाद अनुसंधान: समीक्षाओं, रेटिंग और उत्पाद विवरणों को स्क्रैप करने से ट्रेंडिंग आइटमों की पहचान करने और ग्राहक वरीयताओं को समझने में मदद मिलती है।

3. बिक्री अनुकूलन: विपणक सामग्री को बेहतर बनाने और प्रभावी अभियान बनाने के लिए उत्पाद विवरण और प्रचारों को स्क्रैप करते हैं।

4. स्टॉक स्तर ट्रैकिंग: वास्तविक समय में उत्पाद उपलब्धता डेटा को स्क्रैप करने से व्यवसायों को इन्वेंट्री स्तर और मांग की निगरानी करने में मदद मिलती है।

5. ग्राहक भावना विश्लेषण: Amazon से स्क्रैप की गई समीक्षाओं से ग्राहक संतुष्टि और सुधार के क्षेत्रों में अंतर्दृष्टि मिलती है।

संक्षेप में, Amazon स्क्रैपिंग प्रतिस्पर्धी विश्लेषण, उत्पाद अनुसंधान और विपणन रणनीतियों को सुव्यवस्थित करता है।

Amazon स्क्रैपिंग में प्रमुख चुनौतियाँ (जैसे, CAPTCHA, दर सीमाएँ)

  • CAPTCHA चुनौतियाँ

Amazon स्वचालित क्रॉलिंग को रोकने के लिए CAPTCHA सत्यापन का उपयोग करता है, खासकर जब बड़ी संख्या में तेज़ अनुरोधों का पता चलता है। इस तरह के सत्यापन के लिए उपयोगकर्ताओं को यह पुष्टि करने की आवश्यकता होती है कि वे मानव हैं, जो स्वचालित उपकरणों को सफलतापूर्वक डेटा प्राप्त करने से रोकता है।

  • दर सीमाएँ

Amazon की अनुरोध आवृत्ति सीमा है। यदि आप इसकी वेबसाइट को बहुत बार एक्सेस करते हैं, तो सिस्टम स्वचालित रूप से प्रतिक्रिया में देरी करेगा या आगे के अनुरोधों को अस्थायी रूप से ब्लॉक कर देगा। यह क्रॉलिंग प्रक्रिया को धीमा और अस्थिर बनाता है। यह क्रॉलिंग प्रक्रिया को धीमा और अस्थिर बनाता है।

सुझाव: अधिकांश सामान्य उपयोगकर्ताओं के लिए, Amazon आमतौर पर प्रति मिनट दर्जनों से सैकड़ों अनुरोधों की अनुमति देता है। इस आवृत्ति को पार करने पर देरी या अस्थायी रुकावट का अनुभव हो सकता है। Amazon बार-बार क्रॉलिंग अनुरोधों के लिए सख्त सीमा निर्धारित कर सकता है।

  • IP ब्लॉकिंग

अत्यधिक बार-बार क्रॉलिंग के कारण Amazon IP पतों को अस्थायी रूप से ब्लॉक कर सकता है। यदि IP पते को असामान्य स्रोत के रूप में चिह्नित किया जाता है, तो क्रॉलिंग ऑपरेशन पूरी तरह से अवरुद्ध हो जाएगा, और आपको इस सीमा को दरकिनार करने के लिए IP बदलने या प्रॉक्सी पूल का उपयोग करने की आवश्यकता है। सामान्यतया, प्रति सेकंड 5-10 अनुरोध जोखिम पैदा कर सकते हैं।

  • गतिशील सामग्री लोडिंग

Amazon पृष्ठ सामग्री आमतौर पर जावास्क्रिप्ट के माध्यम से गतिशील रूप से लोड की जाती है, जिसका अर्थ है कि क्रॉलिंग करते समय पृष्ठ रेंडरिंग प्रक्रिया के अतिरिक्त प्रसंस्करण की आवश्यकता होती है। पारंपरिक HTML क्रॉलिंग विधियाँ अक्सर गतिशील रूप से लोड किए गए डेटा को सीधे प्राप्त नहीं कर सकती हैं।

  • लगातार लेआउट परिवर्तन

Amazon वेबसाइट का पृष्ठ लेआउट बार-बार बदलता रहता है, जो क्रॉलिंग स्क्रिप्ट के लिए चुनौतियाँ लाता है। डेटा निष्कर्षण की सटीकता और स्थिरता सुनिश्चित करने के लिए क्रॉलिंग टूल को पृष्ठ के अपडेट और परिवर्तनों के अनुकूल होने के लिए लगातार अपडेट करने की आवश्यकता है।

अपना पायथन पर्यावरण सेट करना

पायथन में कोड लिखना शुरू करने से पहले, आपको पहले अपना विकास वातावरण सेट करना होगा। यह कदम सुनिश्चित करता है कि आपके पास पायथन कोड लिखने और निष्पादित करने के लिए आवश्यक सभी उपकरण और पुस्तकालय हैं। इस खंड में, हम आपको पायथन स्थापित करने, एक वर्चुअल वातावरण स्थापित करने और अपने वर्कफ़्लो को सुव्यवस्थित करने के लिए एक एकीकृत विकास वातावरण (IDE) को कॉन्फ़िगर करने की प्रक्रिया के माध्यम से चलेंगे।

पायथन का उपयोग करने के लिए, आपको निम्नलिखित कॉन्फ़िगरेशन डाउनलोड करने होंगे

1. पायथन: https://www.python.org/downloads/ यह पायथन चलाने के लिए कोर सॉफ़्टवेयर है। आप नीचे दिखाए अनुसार आधिकारिक वेबसाइट से हमारी ज़रूरत के संस्करण को डाउनलोड कर सकते हैं, लेकिन नवीनतम संस्करण डाउनलोड न करने की अनुशंसा की जाती है। आप नवीनतम संस्करण के पहले 1-2 संस्करण डाउनलोड कर सकते हैं।
पायथन

2. पायथन IDE: पायथन को सपोर्ट करने वाला कोई भी IDE काम करेगा, लेकिन हम PyCharm का उपयोग करने की सलाह देते हैं, जो विशेष रूप से पायथन के लिए डिज़ाइन किया गया एक IDE विकास उपकरण सॉफ़्टवेयर है। PyCharm संस्करण के लिए, हम मुफ़्त PyCharm कम्युनिटी संस्करण का उपयोग करने की सलाह देते हैं।
पायथन IDE

3. pip: आप एक ही कमांड से पुस्तकालयों को स्थापित करने के लिए पायथन पैकेज इंडेक्स (PyPi) का उपयोग कर सकते हैं।
pip

ध्यान दें: यदि आप विंडोज़ उपयोगकर्ता हैं, तो इंस्टॉलेशन विज़ार्ड में Add python.exe to PATH विकल्प को चेक करना न भूलें। इस तरह, विंडोज़ टर्मिनल में पायथन और कमांड का उपयोग करने में सक्षम होगा। FYI: चूँकि पायथन 3.4 या बाद के संस्करण में यह डिफ़ॉल्ट रूप से शामिल है, इसलिए आपको इसे मैन्युअल रूप से स्थापित करने की आवश्यकता नहीं है।

एक पायथन प्रोजेक्ट इनिशियलाइज़ करें

PyCharm लॉन्च करें और मेनू बार पर File > New Project... विकल्प चुनें।

फिर यह एक पॉपअप विंडो खोलेगा। बाएँ मेनू से Pure Python चुनें और फिर अपनी प्रोजेक्ट इस प्रकार सेट करें:

ध्यान दें: नीचे दिए गए लाल बॉक्स में, पहले चरण के पर्यावरण कॉन्फ़िगरेशन में डाउनलोड किए गए पायथन के इंस्टॉलेशन पथ का चयन करें।

Pure Python चुनें

आप python-scraper नामक एक प्रोजेक्ट बना सकते हैं, फ़ोल्डर में "Create a main.py welcome script option" को चेक कर सकते हैं, और Create बटन पर क्लिक कर सकते हैं।

कुछ देर इंतज़ार करने के बाद, जब PyCharm आपकी प्रोजेक्ट सेट कर रहा हो, तो आपको निम्नलिखित दिखाई देना चाहिए:
कुछ देर इंतज़ार करने के बाद, जब PyCharm आपकी प्रोजेक्ट सेट कर रहा हो

फिर, एक नई पायथन फ़ाइल बनाने के लिए राइट क्लिक करें।
एक नई पायथन फ़ाइल बनाएँ

यह सत्यापित करने के लिए कि सब कुछ ठीक से काम कर रहा है, स्क्रीन के नीचे टर्मिनल टैब खोलें और टाइप करें: python main.py। इस कमांड को लॉन्च करने के बाद, आपको प्राप्त होना चाहिए: Hi, PyCharm।

आप scraperless में कोड को सीधे pycharm में कॉपी और चला सकते हैं, ताकि हमें Amazon उत्पादों का json प्रारूप डेटा मिल सके।
scraperless में कोड को pycharm में कॉपी करें

चरण-दर-चरण मार्गदर्शिका: Amazon उत्पाद डेटा स्क्रैप करना

जैसा कि हमने ऊपर बताया है, Amazon को वेब स्क्रैपिंग के लिए आवश्यक पर्यावरण को कॉन्फ़िगर करने के बाद, आप Scrapeless पायथन कोड को एकीकृत कर सकते हैं।
H3: Amazon उत्पाद डेटा कैसे स्क्रैप करें
आप अधिक पूर्ण API कोड जानकारी प्राप्त करने के लिए सीधे Scrapeless API दस्तावेज़ पर जा सकते हैं, और फिर अपनी प्रोजेक्ट में Scrapeless पायथन कोड को एकीकृत कर सकते हैं।
अनुरोध नमूने - उत्पाद

import requests Copy
import json

url = "https://api.scrapeless.com/api/v1/scraper/request"

payload = json.dumps({
   "actor": "scraper.amazon",
   "input": {
      "url": "https://www.amazon.com/dp/B0BQXHK363",
      "action": "product"
   }
})
headers = {
   'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Amazon विक्रेता की जानकारी कैसे स्क्रैप करें

इसी तरह, अपनी स्क्रैपिंग सेटअप में Scrapeless AP कोड को एकीकृत करके, आप Amazon स्क्रैपिंग बाधाओं को दरकिनार कर सकते हैं और Amazon विक्रेता की जानकारी को स्क्रैप कर सकते हैं।
अनुरोध नमूने - विक्रेता

import http.client Copy
import json

conn = http.client.HTTPSConnection("api.scrapeless.com")
payload = json.dumps({
   "actor": "scraper.amazon",
   "input": {
      "url": "",
      "action": "seller"
   }
})
headers = {
   'Content-Type': 'application/json'
}
conn.request("POST", "/api/v1/scraper/request", payload, headers)
res = conn.getresponse()
data = res.read()
print(data.decode("utf-8"))

Amazon कीवर्ड खोज परिणाम कैसे स्क्रैप करें

Amazon कीवर्ड खोज परिणाम प्राप्त करने के लिए अपनी प्रोजेक्ट में अनुरोध नमूने - कीवर्ड को एकीकृत करने के लिए उपरोक्त चरणों का पालन करें।
अनुरोध नमूने - कीवर्ड

import http.client Copy
import json

conn = http.client.HTTPSConnection("api.scrapeless.com")
payload = json.dumps({
   "actor": "scraper.amazon",
   "input": {
      "action": "keywords",
      "keywords": "iPhone 12",
      "page": "5",
      "domain": "com"
   }
})
headers = {
   'Content-Type': 'application/json'
}
conn.request("POST", "/api/v1/scraper/request", payload, headers)
res = conn.getresponse()
data = res.read()
print(data.decode("utf-8"))

सरल एकीकरण और कॉन्फ़िगरेशन के माध्यम से, Scrapeless आपको अधिक कुशल तरीके से Amazon डेटा प्राप्त करने में मदद करता है। आप आसानी से Amazon प्लेटफ़ॉर्म पर मुख्य डेटा क्रॉल कर सकते हैं, जिसमें उत्पाद, विक्रेता और कीवर्ड जानकारी शामिल है, जिससे डेटा विश्लेषण की सटीकता और वास्तविक समय की प्रकृति में सुधार होता है।

Amazon डेटा स्क्रैपिंग के बारे में पूछे जाने वाले प्रश्न

1. क्या Amazon डेटा स्क्रैप करना कानूनी है?

सार्वजनिक उत्पाद जानकारी (जैसे शीर्षक, विवरण, कीमतें और रेटिंग) को स्क्रैप करना कानूनी है, जबकि निजी खाता डेटा को स्क्रैप करने से गोपनीयता के मुद्दे उठ सकते हैं। इसके अलावा, बाजार अनुसंधान या प्रतिस्पर्धी विश्लेषण के लिए स्क्रैप किए गए डेटा का उपयोग आम तौर पर "उचित उपयोग" माना जाता है।

2. Amazon से कौन सा डेटा स्क्रैप किया जा सकता है?

Amazon स्क्रैपिंग API का उपयोग करके, आप उत्पादों, विक्रेताओं, समीक्षाओं आदि से संबंधित डेटा निकाल सकते हैं। इसमें उत्पाद का नाम, कीमत, ASIN (Amazon मानक पहचान संख्या), ब्रांड, विवरण, विशिष्टताएँ, श्रेणी, उपयोगकर्ता समीक्षाएं और उनकी रेटिंग शामिल हैं।

3. Amazon डेटा को प्रभावी ढंग से कैसे क्रॉल करें?

Amazon डेटा को क्रॉल करने के प्रभावी तरीकों में स्वचालित स्क्रिप्ट या API का उपयोग करना और Amazon की सेवा की शर्तों का पालन करना शामिल है। अवरुद्ध होने से बचने के लिए, अनुरोध आवृत्ति को कम करने और लोड को यथोचित रूप से नियंत्रित करने की अनुशंसा की जाती है। इसके अलावा, एक कैप्चा समाधान का उपयोग करने से क्रॉलिंग की सफलता दर बढ़ सकती है।

निष्कर्ष: सर्वश्रेष्ठ Amazon स्क्रैपिंग API प्रदाता

इस लेख के परिचय के माध्यम से, आपने सीखा है कि पायथन का उपयोग करके Amazon पर उत्पाद डेटा को कुशलतापूर्वक कैसे क्रॉल किया जाए। चाहे वह उत्पाद विवरण, मूल्य जानकारी या समीक्षा डेटा प्राप्त करना हो, पायथन की शक्ति और लचीलापन स्वचालित क्रॉलिंग को आसान और अधिक कुशल बनाता है। हालाँकि, बड़े पैमाने पर डेटा क्रॉल करते समय, आपको एंटी-क्रॉलर तंत्र के साथ चुनौतियों का सामना करना पड़ सकता है। इस समय, एक बुद्धिमान वेब क्रॉलिंग समाधान के रूप में Scrapeless, आपको इन बाधाओं को दरकिनार करने और एक आसान और अधिक कुशल क्रॉलिंग प्रक्रिया सुनिश्चित करने में मदद कर सकता है। यदि आप डेटा क्रॉलिंग की गति और स्थिरता में सुधार करना चाहते हैं, तो आप अपने क्रॉलिंग वर्कफ़्लो को और बेहतर बनाने के लिए Scrapeless का उपयोग करने का प्रयास कर सकते हैं।

स्क्रैपलेस में, हम लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से पालन करते हुए केवल सार्वजनिक रूप से उपलब्ध डेटा तक पहुंचते हैं। इस ब्लॉग की सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई भी अवैध या उल्लंघनकारी गतिविधियां शामिल नहीं हैं। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए कोई गारंटी नहीं देते हैं और सभी दायित्व से इनकार करते हैं। किसी भी स्क्रैपिंग गतिविधियों में शामिल होने से पहले, अपने कानूनी सलाहकार से परामर्श लें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सर्वाधिक लोकप्रिय लेख

सूची