🎯 कस्टमाइज़ करने योग्य, डिटेक्शन-प्रतिरोधी क्लाउड ब्राउज़र जो स्व-विकसित Chromium द्वारा संचालित है, वेब क्रॉलर और एआई एजेंट्स के लिए डिज़ाइन किया गया। 👉अभी आज़माएं
वापस ब्लॉग पर

ChatGPT स्क्रेपर एपीआई: एआई उत्तर और उद्धरण JSON के रूप में

Emily Chen
Emily Chen

Advanced Data Extraction Specialist

30-Jun-2026

TL;DR:

  • एक ChatGPT स्क्रैपर API मॉडल के उत्तर को संरचित JSON में बदलता है। scraper.chatgpt एक POST कॉल में उत्तर पाठ, उसके पीछे के उद्धरण, और वेब-खोजना परिणाम लौटाता है जो ChatGPT ने परामर्श किए - ये सभी फ़ील्ड हैं, स्क्रीनशॉट नहीं।
  • दो इनपुट पूरे काम को चलाते हैं। prompt सवाल ले जाता है; एक वैकल्पिक country इस बाजार में आवासीय निकास के लिए रन को पिन करता है, ताकि आप वह उत्तर कैप्चर कर सकें जो वहां का वास्तविक उपयोगकर्ता देखेगा।
  • उद्धरण चार्ट बनाने के लिए तैयार आते हैं। content_references प्रत्यक्ष स्रोत की दृष्टि, URL और श्रेय के साथ प्रत्येक उद्धृत स्रोत को सूचीबद्ध करता है - बिना किसी पार्सिंग चरण के उद्धरण ट्रैकिंग के लिए कच्चा सामग्री।
  • लिफाफा कभी नहीं बदलता। हर कॉल { status, task_id, task_result } लौटाता है, जो अन्य Scrapeless LLM कार्यों के समान आकार का होता है, इसलिए ChatGPT के लिए लिखा गया एक लपेटक Grok, Gemini, Perplexity, और Copilot के लिए बिना किसी परिवर्तन के विस्तारित होता है।
  • बैकग्राउंड में कोई ब्राउज़र नहीं। रेंडरिंग, सत्र हैंडलिंग, और प्रॉक्सी रोटेशन सर्वर-साइड पर चलता है; आप एक x-api-token हेडर के साथ एक एंडपॉइंट को कॉल करते हैं और JSON वापस पढ़ते हैं।
  • शुरू करने के लिए मुफ्त। नए Scrapeless खाते मुफ्त परीक्षण क्रेडिट के साथ आते हैं - app.scrapeless.com पर साइन अप करें।

परिचय: उत्तर नया परिणाम पृष्ठ है

ChatGPT उत्पाद प्रश्नों के उत्तर सीधे देता है: एक खरीदार सबसे अच्छा हेल्प-डेस्क उपकरण, सबसे अच्छा CRM, सबसे अच्छा प्रॉक्सी प्रदाता पूछता है, और एक संक्षिप्त संक्षिप्त सिफारिश के साथ कुछ उद्धृत स्रोतों के साथ एकत्रित उत्तर प्राप्त करता है। कोई दूसरा पृष्ठ नहीं है। एक ब्रांड या तो उस उत्तर में नामित होता है - या वह उस खरीदार के लिए अदृश्य होता है।

यह बदलाव एक नए डेटा आवश्यकता का निर्माण करता है। टीमों को जो पहले रैंकिंग को ट्रैक करते थे, अब उन्हें स्वयं उत्तरों की आवश्यकता है: समय के साथ संग्रहीत, अंतरित, और चार्ट किए गए, यह समझाने वाले उद्धरणों के साथ क्यों मॉडल ने जो कहा, ऐसा कहा। यह सब कुछ ब्राउज़र में चैट इंटरफेस को संचालित करके कैप्चर करना लॉगिन दीवारें, स्ट्रीमिंग उत्तर, और मार्कअप जो बिना नोटिस के बदलता है का मतलब है।

scraper.chatgpt कार्य को एक HTTP अनुरोध में संकुचित करता है: इनपुट में प्रश्न, आउटपुट में संरचित उत्तर। यह गाइड अनुरोध आकार, उत्तर स्कीमा फ़ील्ड द्वारा फ़ील्ड, एक चलने योग्य पाइथन क्लाइंट, और साथ में कार्यों को कवर करता है जो बाकी AI-उत्तर परिदृश्य में इसी पैटर्न को विस्तारित करते हैं। उपकरण श्रेणी के लिए एक रैंक किए गए दृश्य के लिए, सर्वश्रेष्ठ LLM स्क्रैपर्स गाइड ChatGPT को अन्य प्लेटफार्मों के साथ कवर करता है।


आप इसके साथ क्या कर सकते हैं

  • उद्धरणों का शेयर-ट्रैकिंग। निर्धारित शेड्यूल पर एक निश्चित प्रश्न सेट चलाएँ और गिनें कि ChatGPT प्रत्येक प्रश्न के लिए कौन से डोमेन का हवाला देता है - GEO मैट्रिक जो रैंक ट्रैकिंग को प्रतिस्थापित करता है।
  • ब्रांड-उल्लेख निगरानी। पहचानें कि कब एक खरीदारी प्रश्न का उत्तर आपके उत्पाद का नाम लेना शुरू या बंद करता है, और वह उल्लेख किस स्रोत से आता है।
  • प्रतिस्पर्धात्मक उत्तर विश्लेषण। कैप्चर करें कि मॉडल कई बाजारों में और समय के साथ उत्पाद श्रेणी का कैसे वर्णन करता है,Supporting links के डेटा के रूप में।
  • मल्टी-स्थानीय कैप्चर। विभिन्न देशों में रन पिन करें और उत्तरों की तुलना एक साथ करें - स्थान उत्तर और उद्धरण दोनों बदलता है।
  • सामग्री-योजना प्रतिक्रिया। देखें कि कौन से आपके पृष्ठ वास्तव में उद्धृत होते हैं, और किन प्रश्नों के लिए, ट्रैफ़िक से अनुमान लगाने के बजाय।
  • डataset निर्माण। साफ़ JSON में कोडित प्रश्न-उत्तर-उद्धरण ट्रिपल एकत्र करें जो डाउनस्ट्रीम विश्लेषण या मूल्यांकन पाइपलाइनों के लिए।

क्यों Scrapeless ChatGPT स्क्रैपर

scraper.chatgpt कार्य Scrapeless LLM Chat Scraper परिवार का एक हिस्सा है जो Universal Scraping API लाइन के अंदर है। यह AI उत्तर को एक प्राथमिक लक्ष्य के रूप में देखता है:

  • एक अनुरोध, संरचित आउटपुट। कोई ब्राउज़र नहीं चलाना, कोई स्ट्रीमिंग फिर से संगठित नहीं करना, कोई DOM पार्स नहीं करना - कार्य सर्वर-साइड पर चैट सतह को रेंडर करता है और पार्स किए गए फ़ील्ड लौटाता है।
  • डेटा के रूप में उद्धरण। content_references प्रत्येक उद्धृत स्रोत को एक स्पष्ट वस्तु के रूप में ले जाता है; उत्तर शरीर अपने अंतर्निहित उद्धरण मार्कर को रखता है ताकि दोनों को जोड़ा जा सके।
  • देश-पिन आवासीय निकास। रन 195+ देशों में आवासीय प्रॉक्सी के माध्यम से मार्गदर्शित होते हैं, इसलिए स्थान-विशिष्ट उत्तर बाजार के अनुसार दोहराए जा सकते हैं।
  • एक टोकन, एक लिफाफा, पांच प्लेटफ़ॉर्म। वही x-api-token और { status, task_id, task_result } अनुबंध ChatGPT, Grok, Gemini, Perplexity, और Copilot कार्यों को कवर करता है।

पूर्ण पैरामीटर संदर्भ LLM Chat Scraper दस्तावेज़ों में उपलब्ध है।


पूर्वापेक्षाएँ

  • एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
  • त्वरित परीक्षण के लिए curl, या नीचे दिए गए क्लाइंट के लिए Python 3.10+।
  • HTTP और JSON की बुनियादी परिचितता।

अपनी कुंजी को वातावरण में स्टोर करें ताकि यह कभी भी कोड में न आए:

bash Copy
export SCRAPELESS_API_KEY=your_api_token_here

ChatGPT स्क्रैपर कैसे काम करता है

आप अभिनेता का नाम लेते हैं, इसे एक इनपुट देते हैं, और एक हेडर में अपनी कुंजी भेजते हैं।

  • एंडपॉइंट: POST https://api.scrapeless.com/api/v2/scraper/execute
  • अभिनेता: scraper.chatgpt
  • प्राधिकरण हेडर: x-api-token: $SCRAPELESS_API_KEY

अनुरोध पैरामीटर

इनपुट फ़ील्ड आवश्यक विवरण
prompt हाँ ChatGPT को भेजने के लिए प्रश्न
country नहीं द्वि-क्षरी देश कोड जो रन का निवास स्थान पिन करता है (जैसे US)

curl के साथ त्वरित कैप्चर

bash Copy
curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: ${SCRAPELESS_API_KEY}" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "What are the best web scraping tools?", "country": "US" }
  }'

प्रतिक्रिया लिफाफा

json Copy
// चित्रात्मक नमूना — एक लाइव scraper.chatgpt रन से schema; मान संक्षिप्त
{
  "status": "success",
  "task_id": "7218e510-…",
  "task_result": {
    "prompt": "What are the best web scraping tools?",
    "model": "gpt-5-5",
    "result_text": "The best tool depends on the use case… ([source][1])",
    "content_references": [
      { "title": "…", "url": "https://…", "attribution": "…" }
    ],
    "search_result": [
      { "title": "…", "url": "https://…", "snippet": "…", "attribution": "…" }
    ],
    "links": [],
    "products": null,
    "web_search": false
  }
}

फील्ड दर फील्ड:

फ़ील्ड प्रकार यह क्या रखता है
status स्ट्रिंग पूर्ण रन पर success
task_id स्ट्रिंग रन का पहचानकर्ता, आपके अपने स्टोर में ऑडिट कुंजी के रूप में उपयोगी
task_result.prompt स्ट्रिंग वह प्रॉम्प्ट जैसा कि ChatGPT ने इसे प्राप्त किया
task_result.model स्ट्रिंग जिसने उत्तर दिया (जैसे हालिया कैप्चर पर gpt-5-5)
task_result.result_text स्ट्रिंग पूर्ण उत्तर जैसा कि मार्कडाउन में, इनलाइन उद्धरण मार्कर संरक्षित
task_result.content_references[] ऐरे प्रत्येक उद्धृत स्रोत को { title, url, attribution } के रूप में
task_result.search_result[] ऐरे वेब-खोज के परिणाम जो ChatGPT ने उत्तर के लिए संदर्भित किए
task_result.links[] ऐरे उत्तर द्वारा सामने आए लिंक, जब उपस्थित हों
task_result.products ऐरे null

मुफ़्त योजना पर अपनी API कुंजी प्राप्त करें: app.scrapeless.com


Python में API का एकीकरण

एक पूर्ण क्लाइंट: प्रॉम्प्ट भेजें, लिफाफा जांचें, और उद्धरण तालिका प्रिंट करें।

python Copy
import os
import requests

ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"


def ask_chatgpt(prompt: str, country: str = "US") -> dict:
    resp = requests.post(
        ENDPOINT,
        headers={
            "Content-Type": "application/json",
            "x-api-token": os.environ["SCRAPELESS_API_KEY"],
        },
        json={"actor": "scraper.chatgpt", "input": {"prompt": prompt, "country": country}},
        timeout=180,
    )
    resp.raise_for_status()
    return resp.json()


if __name__ == "__main__":
    data = ask_chatgpt("What are the best web scraping tools?")
    result = data.get("task_result", {})
    refs = result.get("content_references") or []
    print(f"status={data.get('status')} model={result.get('model')} citations={len(refs)}")
    for i, ref in enumerate(refs, 1):
        print(f"  [{i}] {ref.get('attribution', '')}: {ref.get('title', '')[:60]} → {ref.get('url', '')[:60]}")

उत्तर बॉडी result.get("result_text") में मार्कडाउन के रूप में रहती है; उद्धरण के काम के लिए ऊपर का लूप आम तौर पर पूरा काम होता है — मुद्रित URLs को डोमेन के अनुसार समूहित करें और गिनें।


AI-उत्तर परिदृश्य के बाकी के लिए साथी अभिनेता

समान एंडपॉइंट, हेडर और लिफाफा आस-पास के प्लेटफार्मों को कवर करते हैं — केवल अभिनेता का नाम और एक या दो प्लेटफॉर्म-विशिष्ट फ़ील्ड बदलते हैं:

  • scraper.grok — एक आवश्यक तर्क mode जोड़ता है और अलग web_search_results और x_search_results उद्धरण पैनल लौटाता है।
  • scraper.gemini — ChatGPT के समान दो-फील्ड इनपुट; result_text के साथ-साथ एक citations ऐरे लौटाता है।
  • scraper.perplexity — एक आवश्यक country और एक web_search ध्वज लेता है; web_results, media_items, और संबंधित प्रॉम्प्ट लौटाता है।
  • scraper.copilot — समान अनुबंध के तहत Copilot उत्तर सतह।
  • scraper.overview / scraper.aimode — Google का AI Overview ब्लॉक और AI Mode टैब; AI Overview गाइड उस जोड़ को अंत से अंत तक कवर करती है।
    लाइन की कीमतें उपयोग पर आधारित हैं और साइनअप पर मुफ्त परीक्षण क्रेडिट मिलते हैं - वर्तमान स्तर मूल्य निर्धारण पृष्ठ पर हैं।

सामान्य समस्याओं से कैसे बचें

  • कुछ प्रॉम्प्ट्स पर खाली content_references. ChatGPT हर उत्तर के लिए स्रोतों का उल्लेख नहीं करता - राय या केवल निर्माण करने वाले प्रॉम्प्ट्स का उत्तर बिना संदर्भ के आ सकता है। संदर्भ ट्रैकिंग के लिए, प्रॉम्प्ट्स को उस तरह से व्यक्त करें जैसे एक शोधकर्ता खरीदार करेगा ("Y के लिए सबसे अच्छा X"), जो विश्वसनीय रूप से वेब-आधारित उत्तरों को उत्तेजित करता है।
  • उत्तर रन से रन में बदलते हैं. एक ही प्रॉम्प्ट कुछ मिनटों में एक अलग उत्तर और संदर्भ सेट पैदा कर सकता है - यह परिवर्तनशीलता वह घटना है जिसे आप माप रहे हैं। प्रत्येक कैप्चर को इसके task_id और टाइमस्टैम्प के साथ स्टोर करें और श्रृंखला को, न कि किसी एकल रन को, संकेत के रूप में मानें।
  • हर फ़ील्ड को nullable मानें. खरीदारी के प्रॉम्प्ट्स के बाहर products null है, links अक्सर खाली होते हैं, और संदर्भ गणनाएँ रनों के बीच बदलती हैं। जो कुछ भी मौजूद है उसे पढ़ें बजाय इसके कि किसी निश्चित आकार का अनुमान लगाएं।
  • देश को जानबूझकर पिन करें. एक अनपिन किया गया रन एक उत्तर को कैप्चर करता है; एक पिन किया गया रन उस बाजार का उत्तर कैप्चर करता है जो आपको महत्वपूर्ण है। रिकॉर्ड में country मान को स्टोर रखें ताकि श्रृंखलाएँ तुलनीय बनी रहें।

निष्कर्ष: उत्तर एक-लाइन निर्भरता के रूप में

ChatGPT के उत्तरों को कैप्चर करना एक अनुरोध में संकुचित होता है: POST { actor: "scraper.chatgpt", input: { prompt, country } } अपने x-api-token के साथ, उत्तर के लिए result_text पढ़ें और स्रोतों के लिए content_references, और जोड़ी को इसके task_id के साथ स्टोर करें। वही क्लाइंट, एक प्रॉम्प्ट सेट और एक टाइमटेबल पर इंगित करते हुए, एक संदर्भ-हिस्सा कार्यक्रम बनता है; साथी अभिनेताओं की ओर इंगित करते हुए, यह पूरे AI-उत्तर परिदृश्य का कवरेज बन जाता है।

अपने AI-उत्तर डेटा पाइपलाइन का निर्माण करने के लिए तैयार हैं?

हमारे समुदाय में शामिल हों, एक मुफ्त योजना प्राप्त करें और ऐसे डेवलपर्स से जुड़ें जो AI-उत्तर पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram

app.scrapeless.com पर मुफ्त परीक्षण क्रेडिट के लिए साइन अप करें, और scraper.chatgpt अभिनेता को आपके अनुप्रयोगों, बाजारों और शेड्यूल पर सेट करें जिनकी निगरानी कार्यक्रम को आवश्यकता है।

सामान्य प्रश्न

प्रश्न: क्या ChatGPT के उत्तरों को स्क्रैप करना कानूनी है?

अभिनेता सार्वजनिक रूप से प्रस्तुत उत्तर सामग्री को कैप्चर करता है। नियम क्षेत्राधिकार और मंच की सेवा की शर्तों के अनुसार भिन्न होते हैं, इसलिए संबंधित ToS की समीक्षा करें और अपने उपयोग के मामले के लिए सलाहकार से परामर्श करें - विशेष रूप से कैप्चर किए गए उत्तरों का पुनर्वितरण करने से पहले। कभी भी व्यक्तिगत डेटा एकत्र न करें जो GDPR या CCPA के तहत संरक्षित है।

प्रश्न: मैं प्रमाणीकरण कैसे करूं?

प्रत्येक अनुरोध में हैडर x-api-token: <आपकी कुंजी> होता है। एक खाता कुंजी scraper.chatgpt और अन्य सभी Scrapeless अभिनेताओं के लिए काम करती है। app.scrapeless.com पर मुफ्त योजना पर एक कुंजी बनाएं।

प्रश्न: क्या मुझे प्रॉक्सी की आवश्यकता है?

नहीं। निवासी निकास और भौगोलिक-निर्देशन अभिनेता में निर्मित होते हैं - इनपुट में country समग्र कॉन्फ़िगरेशन है।

प्रश्न: country वास्तव में क्या बदलता है?

रन के लिए निवासी निकास बाजार। ChatGPT के उत्तर और संदर्भ स्थान-संवेदनशील होते हैं, इसलिए एक DE-पिन किया गया रन एक ही प्रॉम्प्ट के लिए विभिन्न उत्पादों को नामांकित कर सकता है और विभिन्न स्रोतों का उल्लेख कर सकता है, जबकि एक US-पिन किया गया रन अलग हो सकता है।

प्रश्न: मैं संदर्भों को साफ़ सूची के रूप में कैसे प्राप्त करूं?

task_result.content_references पढ़ें - प्रत्येक प्रविष्टि { title, url, attribution } है। कोई पाठ पार्सिंग की आवश्यकता नहीं है; result_text में इनलाइन मार्कर्स केवल वहां होते हैं अगर आप उद्धरणों को वाक्यों से जोड़ना चाहते हैं।

प्रश्न: क्या मैं इसे बिना SDK या AI एजेंट के चला सकता हूँ?

हाँ। यह साधारण HTTP है - curl, Python requests, Node fetch, या कोई भी HTTP क्लाइंट सीधे POST /api/v2/scraper/execute के खिलाफ काम करता है। SDK की आवश्यकता नहीं है।

प्रश्न: क्या वही कोड Grok या Gemini के लिए काम करता है?

लिफाफा और प्रमाणीकरण समान हैं; अभिनेता का नाम बदलें और प्लेटफ़ॉर्म-विशिष्ट इनपुट फ़ील्ड को समायोजित करें (Grok को mode की आवश्यकता होती है, Perplexity को country की आवश्यकता होती है)। task_result कुंजी प्लेटफार्म के अनुसार अलग होती हैं, इसलिए उन्हें प्रत्येक अभिनेता के अनुसार मैप करें।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची