🎯 कस्टमाइज़ करने योग्य, डिटेक्शन-प्रतिरोधी क्लाउड ब्राउज़र जो स्व-विकसित Chromium द्वारा संचालित है, वेब क्रॉलर और एआई एजेंट्स के लिए डिज़ाइन किया गया। 👉अभी आज़माएं
वापस ब्लॉग पर

अपने ब्रांड को एक पाइपलाइन के साथ छह AI उत्तर इंजनों में ट्रैक करें।

Daniel Kim
Daniel Kim

Lead Scraping Automation Engineer

10-Jun-2026

मुख्य निष्कर्ष:

  • छह एआई उत्तर इंजन, एक पाइपलाइन। ChatGPT, Grok, Gemini, Perplexity, Copilot, और Google's AI Overview प्रत्येक खरीदने के प्रश्नों का उत्तर संदर्भों के साथ देते हैं — और ये सभी छह एक एंडपॉइंट, एक x-api-token, और एक { status, task_id, task_result } लिफाफे के माध्यम से कैप्चर किए जा सकते हैं।
  • प्लेटफ़ॉर्म केवल फ़ील्ड स्तर पर भिन्न होते हैं। प्रत्येक इंजन अपने संदर्भों को एक अलग कुंजी (content_references, web_search_results, citations, web_results, source) के तहत संग्रहीत करता है; एक छह-लाइन फ़ील्ड मैप उन्हें एक संदर्भ धारा में सामान्यीकृत करता है।
  • संदर्भ का हिस्सा आउटपुट मैट्रिक है। सामान्यीकृत संदर्भों को प्रत्येक प्रॉम्प्ट और प्लेटफ़ॉर्म के द्वारा डोमेन के अनुसार समूहित करें, और समय के साथ संख्या आपके ब्रांड की एआई-उत्तर दृश्यता है।
  • तीन चरण, तीन छोटे स्क्रिप्ट। उत्तरों को कैप्चर करें, संदर्भों को सामान्यीकृत करें, गिनती रिपोर्ट करें — प्रत्येक चरण एक प्याथन फ़ाइल है जिसे आप शेड्यूल पर रख सकते हैं।
  • जो चलाता है, उसे लॉक करें। देश, Grok का तर्किंग मोड, और प्रॉम्प्ट सेट प्रति श्रृंखला स्थिर रहते हैं; उत्तर हर बार भिन्न होते हैं, और वह भिन्नता वही सिग्नल है जिसका आप चार्ट बनाते हैं।
  • शुरू करने के लिए स्वतंत्र। नए Scrapeless खाते में नि:शुल्क परीक्षण क्रेडिट शामिल हैं — app.scrapeless.com पर साइन अप करें।

संक्षेप में पाइपलाइन

एक खरीदार एक एआई सहायक से पूछता है कि कौन सा टूल चुनें, और सहायक किसी को नाम देता है — जो कि संदर्भित स्रोतों की एक संक्षिप्त सूची द्वारा समर्थित है। यह कि वह कोई आप हैं या नहीं, प्लेटफ़ॉर्म के अनुसार भिन्न होता है: जो इंजन आपको संदर्भित करता है, वह आपके खरीदारों द्वारा उपयोग किए जाने वाले इंजन से भिन्न हो सकता है। एक प्लेटफ़ॉर्म को ट्रैक करना आपको उस प्लेटफ़ॉर्म के बारे में बताता है; दृश्यता का चित्र इन छह में से प्रत्येक का साथ-साथ है।

नीचे की पाइपलाइन उस चित्र को अंत से अंत तक उत्पन्न करती है:

  1. कैप्चर करें — सभी छह इंजनों के खिलाफ एक निश्चित प्रॉम्प्ट को Scrapeless के अभिनेताओं के माध्यम से चलाएं; कच्चे उत्तरों को JSONL के रूप में संग्रहीत करें।
  2. सामान्यीकृत करें — प्रत्येक प्लेटफ़ॉर्म के संदर्भ फ़ील्ड को एक एकीकृत {platform, prompt, domain, url, title} धारा में मैप करें।
  3. रिपोर्ट करें — प्लेटफ़ॉर्म प्रति डोमेन द्वारा संदर्भों की गिनती करें, और देखें कि आपका अपना डोमेन कहाँ दिखाई देता है।

चरण 1 एकमात्र चरण है जो नेटवर्क को छूता है। चरण 2 और 3 शुद्ध रूपांतरण हैं, इसलिए विश्लेषण को फिर से चलाना मुफ़्त है। एआई-उत्तर संदर्भों के दृश्यता मैट्रिक बनने के पीछे के वैचारिक पृष्ठभूमि के लिए, GEO और ब्रांड-AI-विज़िबिलिटी टुकड़ा इस अनुशासन को कवर करता है; यह गाइड उपकरण बनाता है।


पूर्वापेक्षाएँ

  • एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
  • Python 3.10+ जिसमें requests हो।
  • एक निश्चित प्रॉम्प्ट जो आपके खरीदार वास्तव में पूछ सकते हैं (काम किया उदाहरण इसका उपयोग करता है; उत्पादन रन एक सेट का उपयोग करते हैं)।

अपनी कुंजी को पर्यावरण में स्टोर करें ताकि यह कभी कोड में न आए:

bash Copy
export SCRAPELESS_API_KEY=your_api_token_here

चरण 1 — उत्तरों को कैप्चर करें

एक फ़ंक्शन सभी छह इंजनों को कवर करता है, क्योंकि अभिनेता एक एंडपॉइंट और एक लिफाफा साझा करते हैं। प्रति-इंजन भिन्नताएँ इनपुट मैप तक सीमित होती हैं — Grok को एक तर्क mode, Perplexity को web_search फ़्लैग की आवश्यकता होती है, Copilot अपने स्वयं के mode को लेता है:

प्लेटफ़ॉर्म अभिनेता अतिरिक्त इनपुट संदर्भों का स्थान
ChatGPT scraper.chatgpt content_references[]
Grok scraper.grok mode (आवश्यक) web_search_results[] + x_search_results[]
Gemini scraper.gemini citations[]
Perplexity scraper.perplexity web_search: true web_results[]
Copilot scraper.copilot mode: "smart" citations[]
Google AI Overview scraper.overview source[]
python Copy
# capture.py — छह एआई उत्तर इंजनों के खिलाफ एक प्रॉम्प्ट चलाएं, कच्चे उत्तरों को स्टोर करें
import json
import os
import time

import requests

ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
HEADERS = {
    "Content-Type": "application/json",
    "x-api-token": os.environ["SCRAPELESS_API_KEY"],
}

PROMPT = "JavaScript-भारित साइटों के लिए सबसे अच्छा वेब स्क्रैपिंग एपीआई क्या है?"
COUNTRY = "US"

ENGINES = {
    "chatgpt": {"actor": "scraper.chatgpt", "extra": {}},
    "grok": {"actor": "scraper.grok", "extra": {"mode": "MODEL_MODE_FAST"}},
    "gemini": {"actor": "scraper.gemini", "extra": {}},
    "perplexity": {"actor": "scraper.perplexity", "extra": {"web_search": True}},
    "copilot": {"actor": "scraper.copilot", "extra": {"mode": "smart"}},
    "google-ai-overview": {"actor": "scraper.overview", "extra": {}},
}

with open("answers.jsonl", "w", encoding="utf-8") as out:
    for platform, spec in ENGINES.items():
        payload = {
            "actor": spec["actor"],
            "input": {"prompt": PROMPT, "country": COUNTRY, **spec["extra"]},
        }
        resp = requests.post(ENDPOINT, headers=HEADERS, json=payload, timeout=300)
        resp.raise_for_status()
        data = resp.json()
        out.write(json.dumps({

"प्लेटफार्म": प्लेटफार्म,
"प्रॉम्प्ट": प्रॉम्प्ट,
"देश": देश,
"कैप्चर की गई": int(time.time()),
"स्थिति": data.get("status"),
"कार्य_आईडी": data.get("task_id"),
"कार्य_परिणाम": data.get("task_result"),
}) + "\n")
print(f"{प्लेटफार्म}: {data.get('status')}")

प्रत्येक पंक्ति answers.jsonl एक प्लेटफार्म के पूर्ण कैप्चर का प्रतिनिधित्व करती है - उत्तर, संदर्भ, और रन मेटाडेटा - जो ऑडिट ट्रेल के लिए task_id द्वारा की गई है।

अपने API कीज़ मुफ्त योजना पर प्राप्त करें: app.scrapeless.com


चरण 2 - संदर्भों को सामान्य बनाना

क्षेत्र मानचित्र पूरी चाल है: प्रत्येक प्लेटफार्म अपने संदर्भ के एरे का नाम अलग-अलग देता है और प्रविष्टियों को अलग-अलग आकार देता है, लेकिन हर प्रविष्टि एक URL ले जाती है। छह मैपिंग्स छह स्कीमाओं को एक स्ट्रीम में बदल देती हैं:

python Copy
# normalize.py — answers.jsonl -> citations.jsonl (एक पंक्ति प्रति संदर्भित स्रोत)
import json
from urllib.parse import urlparse

# प्लेटफार्म -> (array_field, url_key) जोड़ी की सूची जो task_result के अंदर हैं
CITATION_FIELDS = {
    "chatgpt": [("content_references", "url")],
    "grok": [("web_search_results", "url"), ("x_search_results", "url")],
    "gemini": [("citations", "url")],
    "perplexity": [("web_results", "url")],
    "copilot": [("citations", "url")],
    "google-ai-overview": [("source", "url")],
}

with open("answers.jsonl", encoding="utf-8") as inp, \
     open("citations.jsonl", "w", encoding="utf-8") as out:
    for line in inp:
        row = json.loads(line)
        result = row.get("task_result") or {}
        for field, url_key in CITATION_FIELDS[row["platform"]]:
            for entry in result.get(field) or []:
                url = entry.get(url_key) or ""
                if not url.startswith("http"):
                    continue
                out.write(json.dumps({
                    "platform": row["platform"],
                    "prompt": row["prompt"],
                    "country": row["country"],
                    "captured_at": row["captured_at"],
                    "panel": field,
                    "domain": urlparse(url).netloc.removeprefix("www."),
                    "url": url,
                    "title": entry.get("title") or entry.get("name") or "",
                }) + "\n")

print(sum(1 for _ in open("citations.jsonl", encoding="utf-8")), "संदर्भ सामान्यीकृत")

Grok दो पंक्तियां जोड़ता है - ओपन-वेब पृष्ठ और X पोस्ट - और panel क्षेत्र उन्हें नीचे की ओर अलग बनाए रखता है।


चरण 3 - संदर्भों का शेयर रिपोर्ट करें

एक संदर्भ स्ट्रीम के साथ, रिपोर्ट एक ग्रुप-बाय है। प्रति प्लेटफार्म: किस डोमेन को इंजन क्रेडिट करता है, और क्या आपका उनमें से एक है:

python Copy
# report.py — citations.jsonl -> प्रति प्लेटफार्म संदर्भ शेयर तालिका
import json
import os
from collections import Counter, defaultdict

ब्रांड = os.environ.get("BRAND_DOMAIN", "scrapeless.com")

प्रति प्लेटफार्म = defaultdict(Counter)
with open("citations.jsonl", encoding="utf-8") as inp:
    for line in inp:
        row = json.loads(line)
        प्रति प्लेटफार्म[row["platform"]][row["domain"]] += 1

for platform, counts in प्रति प्लेटफार्म.items():
    total = sum(counts.values())
    brand_hits = counts.get(ब्रांड, 0)
    print(f"\n{platform} — {total} संदर्भ · {ब्रांड}: {brand_hits}")
    for domain, n in counts.most_common(5):
        marker = " ←" if domain == ब्रांड else ""
        print(f"  {n:>3}  {domain}{marker}")

एक कार्यक्रम पर चलाने पर, यह तालिका एक समय शृंखला बन जाती है: प्रति प्लेटफार्म, प्रति प्रॉम्प्ट, प्रति बाजार - उत्तरों की संख्या जो आपको संदर्भित करती है, और कौन संदर्भित होता है इसके बजाय। वह श्रृंखला एक GEO कार्यक्रम की रिपोर्ट पर है।


श्रृंखला को शेड्यूलिंग और स्केलिंग करना

  • चर धारित करें। हर रन में वही प्रॉम्प्ट, वही देश, वही Grok मोड - एक श्रृंखला केवल तब पढ़ने योग्य होती है जब प्रक्रिया स्थिर हो। दैनिक या साप्ताहिक कैप्चर करें; एआई उत्तर दोनों समय स्केल पर चलते हैं।
  • गुणा द्वारा स्केल करें, नई कोड द्वारा नहीं। अधिक प्रॉम्प्ट एक स्टेज 1 के चारों ओर एक लूप है; अधिक बाजार एक दूसरा COUNTRY है; दोनों चलाने की संख्या को गुणा करते हैं, इसलिए योजना बनाएं - अभिनेता उपयोग-आधारित बिल करते हैं, वर्तमान स्तरों के साथ मूल्य निर्धारण पृष्ठ पर।
  • कच्चे कैप्चर रखें। answers.jsonl रिपोर्ट में हर संख्या के पीछे का सबूत है; सामान्यीकरण विकल्प बदलते हैं, कच्चे उत्तर नहीं।
  • खाली पैनलों की अपेक्षा करें। कुछ प्रॉम्प्ट कुछ इंजनों पर कोई संदर्भ नहीं देते हैं (विशेष रूप से Grok की X पैनल प्रॉम्प्ट पर निर्भर होती है)। एक खाली एरे एक डेटा बिंदु है, विफलता नहीं।
    अभिनेता यूनिवर्सल स्क्रैपिंग एपीआई लाइन में रहते हैं; सर्वश्रेष्ठ LLM स्क्रैपर्स गाइड श्रेणी को रैंक करता है यदि आप उपकरणों की तुलना कर रहे हैं।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: क्या इस तरह से AI उत्तर कैप्चर करना कानूनी है?

अभिनेता सार्वजनिक रूप से प्रस्तुत उत्तर सामग्री कैप्चर करते हैं। नियम क्षेत्राधिकार द्वारा भिन्न होते हैं और प्रत्येक प्लेटफार्म के नियम — लागू टर्म्स का पुनरावलोकन करें और अपने उपयोग केस के लिए कानूनी सलाह लें। GDPR या CCPA के तहत संरक्षित व्यक्तिगत डेटा कभी न इकट्ठा करें।

प्रश्न: उदाहरण में एक संकेत क्यों, सेट के बजाय?

स्पष्टता। उत्पादन रनों में चरण 1 के चारों ओर एक संकेत सेट लूप होता है; सब कुछ नीचे की ओर पहले से ही कई संकेतों को संभालता है क्योंकि प्रत्येक पंक्ति में अपना संकेत होता है।

प्रश्न: कितने रन एक उपयोगी श्रृंखला बनाते हैं?

एक गैर-नियतात्मक सतह के एकल कैप्चर से बहुत कुछ साबित नहीं होता। दो से तीन सप्ताह के लिए दैनिक कैप्चर अधिकतर संकेत सेट पर प्रवृत्ति को शोर से अलग करने के लिए पर्याप्त बिंदु देते हैं।

प्रश्न: Google's AI मोड टैब के बारे में क्या?

इसका अपना अभिनेता (scraper.aimode) उसी लिफाफे के तहत है — इंजन मानचित्र में एक सातवां प्रवेश जोड़ें। AI अवलोकन गाइड में Google के उत्तर सतहों को गहराई से कवर किया गया है।

प्रश्न: क्या मुझे प्रॉक्सी की आवश्यकता है?

नहीं। आवासीय निकासी और भू-रूटिंग अभिनेताओं में शामिल हैं; देश इनपुट पूरी कॉन्फ़िगरेशन है।

प्रश्न: क्या यह बिना AI एजेंट या SDK के चल सकता है?

हाँ — तीन चरण शुद्ध Python पर HTTP हैं। कोई भी शेड्यूलर (क्रॉन, CI, एक कार्यप्रवाह रनर) उन्हें चला सकता है।


निष्कर्ष: एक लिफाफा, छह इंजन, एक संख्या

पाइपलाइन तीन फ़ाइलों में घटित होती है: छह अभिनेताओं के माध्यम से उत्तर कैप्चर करें जो एक एंडपॉइंट और एक लिफाफा साझा करते हैं, छह प्रेरणा स्कीमाओं को एक छह-लाइन क्षेत्र मानचित्र के साथ सामान्य करें, और डोमेन की गणना करें। आउटपुट वह संख्या है जो AI-युग की दृश्यता के काम की कमी थी — कितनी बार प्रत्येक उत्तर इंजन आपको क्रेडिट देता है, समय के साथ, प्रति मार्केट। इसे शेड्यूल करें और चार्ट खुद को खींच लेता है।

क्या आप अपने AI-उत्तर डेटा पाइपलाइन बनाने के लिए तैयार हैं?

हमारे समुदाय में शामिल हों एक मुफ्त योजना प्राप्त करने के लिए और उन डेवलपर्स से जुड़ें जो AI-उत्तर पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram

app.scrapeless.com पर मुफ्त परीक्षण क्रेडिट के लिए साइन अप करें, और पाइपलाइन को उन संकेतों, इंजनों और बाजारों की ओर इंगित करें जिनका आपके ब्रांड के उत्तर हैं।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची