ChatGPT स्क्रेपर एपीआई: एआई उत्तर और उद्धरण JSON के रूप में
Advanced Data Extraction Specialist
TL;DR:
- एक ChatGPT स्क्रैपर API मॉडल के उत्तर को संरचित JSON में बदलता है।
scraper.chatgptएक POST कॉल में उत्तर पाठ, उसके पीछे के उद्धरण, और वेब-खोजना परिणाम लौटाता है जो ChatGPT ने परामर्श किए - ये सभी फ़ील्ड हैं, स्क्रीनशॉट नहीं। - दो इनपुट पूरे काम को चलाते हैं।
promptसवाल ले जाता है; एक वैकल्पिकcountryइस बाजार में आवासीय निकास के लिए रन को पिन करता है, ताकि आप वह उत्तर कैप्चर कर सकें जो वहां का वास्तविक उपयोगकर्ता देखेगा। - उद्धरण चार्ट बनाने के लिए तैयार आते हैं।
content_referencesप्रत्यक्ष स्रोत की दृष्टि, URL और श्रेय के साथ प्रत्येक उद्धृत स्रोत को सूचीबद्ध करता है - बिना किसी पार्सिंग चरण के उद्धरण ट्रैकिंग के लिए कच्चा सामग्री। - लिफाफा कभी नहीं बदलता। हर कॉल
{ status, task_id, task_result }लौटाता है, जो अन्य Scrapeless LLM कार्यों के समान आकार का होता है, इसलिए ChatGPT के लिए लिखा गया एक लपेटक Grok, Gemini, Perplexity, और Copilot के लिए बिना किसी परिवर्तन के विस्तारित होता है। - बैकग्राउंड में कोई ब्राउज़र नहीं। रेंडरिंग, सत्र हैंडलिंग, और प्रॉक्सी रोटेशन सर्वर-साइड पर चलता है; आप एक
x-api-tokenहेडर के साथ एक एंडपॉइंट को कॉल करते हैं और JSON वापस पढ़ते हैं। - शुरू करने के लिए मुफ्त। नए Scrapeless खाते मुफ्त परीक्षण क्रेडिट के साथ आते हैं - app.scrapeless.com पर साइन अप करें।
परिचय: उत्तर नया परिणाम पृष्ठ है
ChatGPT उत्पाद प्रश्नों के उत्तर सीधे देता है: एक खरीदार सबसे अच्छा हेल्प-डेस्क उपकरण, सबसे अच्छा CRM, सबसे अच्छा प्रॉक्सी प्रदाता पूछता है, और एक संक्षिप्त संक्षिप्त सिफारिश के साथ कुछ उद्धृत स्रोतों के साथ एकत्रित उत्तर प्राप्त करता है। कोई दूसरा पृष्ठ नहीं है। एक ब्रांड या तो उस उत्तर में नामित होता है - या वह उस खरीदार के लिए अदृश्य होता है।
यह बदलाव एक नए डेटा आवश्यकता का निर्माण करता है। टीमों को जो पहले रैंकिंग को ट्रैक करते थे, अब उन्हें स्वयं उत्तरों की आवश्यकता है: समय के साथ संग्रहीत, अंतरित, और चार्ट किए गए, यह समझाने वाले उद्धरणों के साथ क्यों मॉडल ने जो कहा, ऐसा कहा। यह सब कुछ ब्राउज़र में चैट इंटरफेस को संचालित करके कैप्चर करना लॉगिन दीवारें, स्ट्रीमिंग उत्तर, और मार्कअप जो बिना नोटिस के बदलता है का मतलब है।
scraper.chatgpt कार्य को एक HTTP अनुरोध में संकुचित करता है: इनपुट में प्रश्न, आउटपुट में संरचित उत्तर। यह गाइड अनुरोध आकार, उत्तर स्कीमा फ़ील्ड द्वारा फ़ील्ड, एक चलने योग्य पाइथन क्लाइंट, और साथ में कार्यों को कवर करता है जो बाकी AI-उत्तर परिदृश्य में इसी पैटर्न को विस्तारित करते हैं। उपकरण श्रेणी के लिए एक रैंक किए गए दृश्य के लिए, सर्वश्रेष्ठ LLM स्क्रैपर्स गाइड ChatGPT को अन्य प्लेटफार्मों के साथ कवर करता है।
आप इसके साथ क्या कर सकते हैं
- उद्धरणों का शेयर-ट्रैकिंग। निर्धारित शेड्यूल पर एक निश्चित प्रश्न सेट चलाएँ और गिनें कि ChatGPT प्रत्येक प्रश्न के लिए कौन से डोमेन का हवाला देता है - GEO मैट्रिक जो रैंक ट्रैकिंग को प्रतिस्थापित करता है।
- ब्रांड-उल्लेख निगरानी। पहचानें कि कब एक खरीदारी प्रश्न का उत्तर आपके उत्पाद का नाम लेना शुरू या बंद करता है, और वह उल्लेख किस स्रोत से आता है।
- प्रतिस्पर्धात्मक उत्तर विश्लेषण। कैप्चर करें कि मॉडल कई बाजारों में और समय के साथ उत्पाद श्रेणी का कैसे वर्णन करता है,Supporting links के डेटा के रूप में।
- मल्टी-स्थानीय कैप्चर। विभिन्न देशों में रन पिन करें और उत्तरों की तुलना एक साथ करें - स्थान उत्तर और उद्धरण दोनों बदलता है।
- सामग्री-योजना प्रतिक्रिया। देखें कि कौन से आपके पृष्ठ वास्तव में उद्धृत होते हैं, और किन प्रश्नों के लिए, ट्रैफ़िक से अनुमान लगाने के बजाय।
- डataset निर्माण। साफ़ JSON में कोडित प्रश्न-उत्तर-उद्धरण ट्रिपल एकत्र करें जो डाउनस्ट्रीम विश्लेषण या मूल्यांकन पाइपलाइनों के लिए।
क्यों Scrapeless ChatGPT स्क्रैपर
scraper.chatgpt कार्य Scrapeless LLM Chat Scraper परिवार का एक हिस्सा है जो Universal Scraping API लाइन के अंदर है। यह AI उत्तर को एक प्राथमिक लक्ष्य के रूप में देखता है:
- एक अनुरोध, संरचित आउटपुट। कोई ब्राउज़र नहीं चलाना, कोई स्ट्रीमिंग फिर से संगठित नहीं करना, कोई DOM पार्स नहीं करना - कार्य सर्वर-साइड पर चैट सतह को रेंडर करता है और पार्स किए गए फ़ील्ड लौटाता है।
- डेटा के रूप में उद्धरण।
content_referencesप्रत्येक उद्धृत स्रोत को एक स्पष्ट वस्तु के रूप में ले जाता है; उत्तर शरीर अपने अंतर्निहित उद्धरण मार्कर को रखता है ताकि दोनों को जोड़ा जा सके। - देश-पिन आवासीय निकास। रन 195+ देशों में आवासीय प्रॉक्सी के माध्यम से मार्गदर्शित होते हैं, इसलिए स्थान-विशिष्ट उत्तर बाजार के अनुसार दोहराए जा सकते हैं।
- एक टोकन, एक लिफाफा, पांच प्लेटफ़ॉर्म। वही
x-api-tokenऔर{ status, task_id, task_result }अनुबंध ChatGPT, Grok, Gemini, Perplexity, और Copilot कार्यों को कवर करता है।
पूर्ण पैरामीटर संदर्भ LLM Chat Scraper दस्तावेज़ों में उपलब्ध है।
पूर्वापेक्षाएँ
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
- त्वरित परीक्षण के लिए
curl, या नीचे दिए गए क्लाइंट के लिए Python 3.10+। - HTTP और JSON की बुनियादी परिचितता।
अपनी कुंजी को वातावरण में स्टोर करें ताकि यह कभी भी कोड में न आए:
bash
export SCRAPELESS_API_KEY=your_api_token_here
ChatGPT स्क्रैपर कैसे काम करता है
आप अभिनेता का नाम लेते हैं, इसे एक इनपुट देते हैं, और एक हेडर में अपनी कुंजी भेजते हैं।
- एंडपॉइंट:
POST https://api.scrapeless.com/api/v2/scraper/execute - अभिनेता:
scraper.chatgpt - प्राधिकरण हेडर:
x-api-token: $SCRAPELESS_API_KEY
अनुरोध पैरामीटर
| इनपुट फ़ील्ड | आवश्यक | विवरण |
|---|---|---|
prompt |
हाँ | ChatGPT को भेजने के लिए प्रश्न |
country |
नहीं | द्वि-क्षरी देश कोड जो रन का निवास स्थान पिन करता है (जैसे US) |
curl के साथ त्वरित कैप्चर
bash
curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: ${SCRAPELESS_API_KEY}" \
-d '{
"actor": "scraper.chatgpt",
"input": { "prompt": "What are the best web scraping tools?", "country": "US" }
}'
प्रतिक्रिया लिफाफा
json
// चित्रात्मक नमूना — एक लाइव scraper.chatgpt रन से schema; मान संक्षिप्त
{
"status": "success",
"task_id": "7218e510-…",
"task_result": {
"prompt": "What are the best web scraping tools?",
"model": "gpt-5-5",
"result_text": "The best tool depends on the use case… ([source][1])",
"content_references": [
{ "title": "…", "url": "https://…", "attribution": "…" }
],
"search_result": [
{ "title": "…", "url": "https://…", "snippet": "…", "attribution": "…" }
],
"links": [],
"products": null,
"web_search": false
}
}
फील्ड दर फील्ड:
| फ़ील्ड | प्रकार | यह क्या रखता है |
|---|---|---|
status |
स्ट्रिंग | पूर्ण रन पर success |
task_id |
स्ट्रिंग | रन का पहचानकर्ता, आपके अपने स्टोर में ऑडिट कुंजी के रूप में उपयोगी |
task_result.prompt |
स्ट्रिंग | वह प्रॉम्प्ट जैसा कि ChatGPT ने इसे प्राप्त किया |
task_result.model |
स्ट्रिंग | जिसने उत्तर दिया (जैसे हालिया कैप्चर पर gpt-5-5) |
task_result.result_text |
स्ट्रिंग | पूर्ण उत्तर जैसा कि मार्कडाउन में, इनलाइन उद्धरण मार्कर संरक्षित |
task_result.content_references[] |
ऐरे | प्रत्येक उद्धृत स्रोत को { title, url, attribution } के रूप में |
task_result.search_result[] |
ऐरे | वेब-खोज के परिणाम जो ChatGPT ने उत्तर के लिए संदर्भित किए |
task_result.links[] |
ऐरे | उत्तर द्वारा सामने आए लिंक, जब उपस्थित हों |
task_result.products |
ऐरे | null |
मुफ़्त योजना पर अपनी API कुंजी प्राप्त करें: app.scrapeless.com
Python में API का एकीकरण
एक पूर्ण क्लाइंट: प्रॉम्प्ट भेजें, लिफाफा जांचें, और उद्धरण तालिका प्रिंट करें।
python
import os
import requests
ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
def ask_chatgpt(prompt: str, country: str = "US") -> dict:
resp = requests.post(
ENDPOINT,
headers={
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
},
json={"actor": "scraper.chatgpt", "input": {"prompt": prompt, "country": country}},
timeout=180,
)
resp.raise_for_status()
return resp.json()
if __name__ == "__main__":
data = ask_chatgpt("What are the best web scraping tools?")
result = data.get("task_result", {})
refs = result.get("content_references") or []
print(f"status={data.get('status')} model={result.get('model')} citations={len(refs)}")
for i, ref in enumerate(refs, 1):
print(f" [{i}] {ref.get('attribution', '')}: {ref.get('title', '')[:60]} → {ref.get('url', '')[:60]}")
उत्तर बॉडी result.get("result_text") में मार्कडाउन के रूप में रहती है; उद्धरण के काम के लिए ऊपर का लूप आम तौर पर पूरा काम होता है — मुद्रित URLs को डोमेन के अनुसार समूहित करें और गिनें।
AI-उत्तर परिदृश्य के बाकी के लिए साथी अभिनेता
समान एंडपॉइंट, हेडर और लिफाफा आस-पास के प्लेटफार्मों को कवर करते हैं — केवल अभिनेता का नाम और एक या दो प्लेटफॉर्म-विशिष्ट फ़ील्ड बदलते हैं:
scraper.grok— एक आवश्यक तर्कmodeजोड़ता है और अलगweb_search_resultsऔरx_search_resultsउद्धरण पैनल लौटाता है।scraper.gemini— ChatGPT के समान दो-फील्ड इनपुट;result_textके साथ-साथ एकcitationsऐरे लौटाता है।scraper.perplexity— एक आवश्यकcountryऔर एकweb_searchध्वज लेता है;web_results,media_items, और संबंधित प्रॉम्प्ट लौटाता है।scraper.copilot— समान अनुबंध के तहत Copilot उत्तर सतह।scraper.overview/scraper.aimode— Google का AI Overview ब्लॉक और AI Mode टैब; AI Overview गाइड उस जोड़ को अंत से अंत तक कवर करती है।
लाइन की कीमतें उपयोग पर आधारित हैं और साइनअप पर मुफ्त परीक्षण क्रेडिट मिलते हैं - वर्तमान स्तर मूल्य निर्धारण पृष्ठ पर हैं।
सामान्य समस्याओं से कैसे बचें
- कुछ प्रॉम्प्ट्स पर खाली
content_references. ChatGPT हर उत्तर के लिए स्रोतों का उल्लेख नहीं करता - राय या केवल निर्माण करने वाले प्रॉम्प्ट्स का उत्तर बिना संदर्भ के आ सकता है। संदर्भ ट्रैकिंग के लिए, प्रॉम्प्ट्स को उस तरह से व्यक्त करें जैसे एक शोधकर्ता खरीदार करेगा ("Y के लिए सबसे अच्छा X"), जो विश्वसनीय रूप से वेब-आधारित उत्तरों को उत्तेजित करता है। - उत्तर रन से रन में बदलते हैं. एक ही प्रॉम्प्ट कुछ मिनटों में एक अलग उत्तर और संदर्भ सेट पैदा कर सकता है - यह परिवर्तनशीलता वह घटना है जिसे आप माप रहे हैं। प्रत्येक कैप्चर को इसके
task_idऔर टाइमस्टैम्प के साथ स्टोर करें और श्रृंखला को, न कि किसी एकल रन को, संकेत के रूप में मानें। - हर फ़ील्ड को nullable मानें. खरीदारी के प्रॉम्प्ट्स के बाहर
productsnullहै,linksअक्सर खाली होते हैं, और संदर्भ गणनाएँ रनों के बीच बदलती हैं। जो कुछ भी मौजूद है उसे पढ़ें बजाय इसके कि किसी निश्चित आकार का अनुमान लगाएं। - देश को जानबूझकर पिन करें. एक अनपिन किया गया रन एक उत्तर को कैप्चर करता है; एक पिन किया गया रन उस बाजार का उत्तर कैप्चर करता है जो आपको महत्वपूर्ण है। रिकॉर्ड में
countryमान को स्टोर रखें ताकि श्रृंखलाएँ तुलनीय बनी रहें।
निष्कर्ष: उत्तर एक-लाइन निर्भरता के रूप में
ChatGPT के उत्तरों को कैप्चर करना एक अनुरोध में संकुचित होता है: POST { actor: "scraper.chatgpt", input: { prompt, country } } अपने x-api-token के साथ, उत्तर के लिए result_text पढ़ें और स्रोतों के लिए content_references, और जोड़ी को इसके task_id के साथ स्टोर करें। वही क्लाइंट, एक प्रॉम्प्ट सेट और एक टाइमटेबल पर इंगित करते हुए, एक संदर्भ-हिस्सा कार्यक्रम बनता है; साथी अभिनेताओं की ओर इंगित करते हुए, यह पूरे AI-उत्तर परिदृश्य का कवरेज बन जाता है।
अपने AI-उत्तर डेटा पाइपलाइन का निर्माण करने के लिए तैयार हैं?
हमारे समुदाय में शामिल हों, एक मुफ्त योजना प्राप्त करें और ऐसे डेवलपर्स से जुड़ें जो AI-उत्तर पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram।
app.scrapeless.com पर मुफ्त परीक्षण क्रेडिट के लिए साइन अप करें, और scraper.chatgpt अभिनेता को आपके अनुप्रयोगों, बाजारों और शेड्यूल पर सेट करें जिनकी निगरानी कार्यक्रम को आवश्यकता है।
सामान्य प्रश्न
प्रश्न: क्या ChatGPT के उत्तरों को स्क्रैप करना कानूनी है?
अभिनेता सार्वजनिक रूप से प्रस्तुत उत्तर सामग्री को कैप्चर करता है। नियम क्षेत्राधिकार और मंच की सेवा की शर्तों के अनुसार भिन्न होते हैं, इसलिए संबंधित ToS की समीक्षा करें और अपने उपयोग के मामले के लिए सलाहकार से परामर्श करें - विशेष रूप से कैप्चर किए गए उत्तरों का पुनर्वितरण करने से पहले। कभी भी व्यक्तिगत डेटा एकत्र न करें जो GDPR या CCPA के तहत संरक्षित है।
प्रश्न: मैं प्रमाणीकरण कैसे करूं?
प्रत्येक अनुरोध में हैडर x-api-token: <आपकी कुंजी> होता है। एक खाता कुंजी scraper.chatgpt और अन्य सभी Scrapeless अभिनेताओं के लिए काम करती है। app.scrapeless.com पर मुफ्त योजना पर एक कुंजी बनाएं।
प्रश्न: क्या मुझे प्रॉक्सी की आवश्यकता है?
नहीं। निवासी निकास और भौगोलिक-निर्देशन अभिनेता में निर्मित होते हैं - इनपुट में country समग्र कॉन्फ़िगरेशन है।
प्रश्न: country वास्तव में क्या बदलता है?
रन के लिए निवासी निकास बाजार। ChatGPT के उत्तर और संदर्भ स्थान-संवेदनशील होते हैं, इसलिए एक DE-पिन किया गया रन एक ही प्रॉम्प्ट के लिए विभिन्न उत्पादों को नामांकित कर सकता है और विभिन्न स्रोतों का उल्लेख कर सकता है, जबकि एक US-पिन किया गया रन अलग हो सकता है।
प्रश्न: मैं संदर्भों को साफ़ सूची के रूप में कैसे प्राप्त करूं?
task_result.content_references पढ़ें - प्रत्येक प्रविष्टि { title, url, attribution } है। कोई पाठ पार्सिंग की आवश्यकता नहीं है; result_text में इनलाइन मार्कर्स केवल वहां होते हैं अगर आप उद्धरणों को वाक्यों से जोड़ना चाहते हैं।
प्रश्न: क्या मैं इसे बिना SDK या AI एजेंट के चला सकता हूँ?
हाँ। यह साधारण HTTP है - curl, Python requests, Node fetch, या कोई भी HTTP क्लाइंट सीधे POST /api/v2/scraper/execute के खिलाफ काम करता है। SDK की आवश्यकता नहीं है।
प्रश्न: क्या वही कोड Grok या Gemini के लिए काम करता है?
लिफाफा और प्रमाणीकरण समान हैं; अभिनेता का नाम बदलें और प्लेटफ़ॉर्म-विशिष्ट इनपुट फ़ील्ड को समायोजित करें (Grok को mode की आवश्यकता होती है, Perplexity को country की आवश्यकता होती है)। task_result कुंजी प्लेटफार्म के अनुसार अलग होती हैं, इसलिए उन्हें प्रत्येक अभिनेता के अनुसार मैप करें।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



