अपने ब्रांड को एक पाइपलाइन के साथ छह AI उत्तर इंजनों में ट्रैक करें।
Lead Scraping Automation Engineer
मुख्य निष्कर्ष:
- छह एआई उत्तर इंजन, एक पाइपलाइन। ChatGPT, Grok, Gemini, Perplexity, Copilot, और Google's AI Overview प्रत्येक खरीदने के प्रश्नों का उत्तर संदर्भों के साथ देते हैं — और ये सभी छह एक एंडपॉइंट, एक
x-api-token, और एक{ status, task_id, task_result }लिफाफे के माध्यम से कैप्चर किए जा सकते हैं। - प्लेटफ़ॉर्म केवल फ़ील्ड स्तर पर भिन्न होते हैं। प्रत्येक इंजन अपने संदर्भों को एक अलग कुंजी (
content_references,web_search_results,citations,web_results,source) के तहत संग्रहीत करता है; एक छह-लाइन फ़ील्ड मैप उन्हें एक संदर्भ धारा में सामान्यीकृत करता है। - संदर्भ का हिस्सा आउटपुट मैट्रिक है। सामान्यीकृत संदर्भों को प्रत्येक प्रॉम्प्ट और प्लेटफ़ॉर्म के द्वारा डोमेन के अनुसार समूहित करें, और समय के साथ संख्या आपके ब्रांड की एआई-उत्तर दृश्यता है।
- तीन चरण, तीन छोटे स्क्रिप्ट। उत्तरों को कैप्चर करें, संदर्भों को सामान्यीकृत करें, गिनती रिपोर्ट करें — प्रत्येक चरण एक प्याथन फ़ाइल है जिसे आप शेड्यूल पर रख सकते हैं।
- जो चलाता है, उसे लॉक करें। देश, Grok का तर्किंग मोड, और प्रॉम्प्ट सेट प्रति श्रृंखला स्थिर रहते हैं; उत्तर हर बार भिन्न होते हैं, और वह भिन्नता वही सिग्नल है जिसका आप चार्ट बनाते हैं।
- शुरू करने के लिए स्वतंत्र। नए Scrapeless खाते में नि:शुल्क परीक्षण क्रेडिट शामिल हैं — app.scrapeless.com पर साइन अप करें।
संक्षेप में पाइपलाइन
एक खरीदार एक एआई सहायक से पूछता है कि कौन सा टूल चुनें, और सहायक किसी को नाम देता है — जो कि संदर्भित स्रोतों की एक संक्षिप्त सूची द्वारा समर्थित है। यह कि वह कोई आप हैं या नहीं, प्लेटफ़ॉर्म के अनुसार भिन्न होता है: जो इंजन आपको संदर्भित करता है, वह आपके खरीदारों द्वारा उपयोग किए जाने वाले इंजन से भिन्न हो सकता है। एक प्लेटफ़ॉर्म को ट्रैक करना आपको उस प्लेटफ़ॉर्म के बारे में बताता है; दृश्यता का चित्र इन छह में से प्रत्येक का साथ-साथ है।
नीचे की पाइपलाइन उस चित्र को अंत से अंत तक उत्पन्न करती है:
- कैप्चर करें — सभी छह इंजनों के खिलाफ एक निश्चित प्रॉम्प्ट को Scrapeless के अभिनेताओं के माध्यम से चलाएं; कच्चे उत्तरों को JSONL के रूप में संग्रहीत करें।
- सामान्यीकृत करें — प्रत्येक प्लेटफ़ॉर्म के संदर्भ फ़ील्ड को एक एकीकृत
{platform, prompt, domain, url, title}धारा में मैप करें। - रिपोर्ट करें — प्लेटफ़ॉर्म प्रति डोमेन द्वारा संदर्भों की गिनती करें, और देखें कि आपका अपना डोमेन कहाँ दिखाई देता है।
चरण 1 एकमात्र चरण है जो नेटवर्क को छूता है। चरण 2 और 3 शुद्ध रूपांतरण हैं, इसलिए विश्लेषण को फिर से चलाना मुफ़्त है। एआई-उत्तर संदर्भों के दृश्यता मैट्रिक बनने के पीछे के वैचारिक पृष्ठभूमि के लिए, GEO और ब्रांड-AI-विज़िबिलिटी टुकड़ा इस अनुशासन को कवर करता है; यह गाइड उपकरण बनाता है।
पूर्वापेक्षाएँ
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
- Python 3.10+ जिसमें
requestsहो। - एक निश्चित प्रॉम्प्ट जो आपके खरीदार वास्तव में पूछ सकते हैं (काम किया उदाहरण इसका उपयोग करता है; उत्पादन रन एक सेट का उपयोग करते हैं)।
अपनी कुंजी को पर्यावरण में स्टोर करें ताकि यह कभी कोड में न आए:
bash
export SCRAPELESS_API_KEY=your_api_token_here
चरण 1 — उत्तरों को कैप्चर करें
एक फ़ंक्शन सभी छह इंजनों को कवर करता है, क्योंकि अभिनेता एक एंडपॉइंट और एक लिफाफा साझा करते हैं। प्रति-इंजन भिन्नताएँ इनपुट मैप तक सीमित होती हैं — Grok को एक तर्क mode, Perplexity को web_search फ़्लैग की आवश्यकता होती है, Copilot अपने स्वयं के mode को लेता है:
| प्लेटफ़ॉर्म | अभिनेता | अतिरिक्त इनपुट | संदर्भों का स्थान |
|---|---|---|---|
| ChatGPT | scraper.chatgpt |
— | content_references[] |
| Grok | scraper.grok |
mode (आवश्यक) |
web_search_results[] + x_search_results[] |
| Gemini | scraper.gemini |
— | citations[] |
| Perplexity | scraper.perplexity |
web_search: true |
web_results[] |
| Copilot | scraper.copilot |
mode: "smart" |
citations[] |
| Google AI Overview | scraper.overview |
— | source[] |
python
# capture.py — छह एआई उत्तर इंजनों के खिलाफ एक प्रॉम्प्ट चलाएं, कच्चे उत्तरों को स्टोर करें
import json
import os
import time
import requests
ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
HEADERS = {
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
}
PROMPT = "JavaScript-भारित साइटों के लिए सबसे अच्छा वेब स्क्रैपिंग एपीआई क्या है?"
COUNTRY = "US"
ENGINES = {
"chatgpt": {"actor": "scraper.chatgpt", "extra": {}},
"grok": {"actor": "scraper.grok", "extra": {"mode": "MODEL_MODE_FAST"}},
"gemini": {"actor": "scraper.gemini", "extra": {}},
"perplexity": {"actor": "scraper.perplexity", "extra": {"web_search": True}},
"copilot": {"actor": "scraper.copilot", "extra": {"mode": "smart"}},
"google-ai-overview": {"actor": "scraper.overview", "extra": {}},
}
with open("answers.jsonl", "w", encoding="utf-8") as out:
for platform, spec in ENGINES.items():
payload = {
"actor": spec["actor"],
"input": {"prompt": PROMPT, "country": COUNTRY, **spec["extra"]},
}
resp = requests.post(ENDPOINT, headers=HEADERS, json=payload, timeout=300)
resp.raise_for_status()
data = resp.json()
out.write(json.dumps({
"प्लेटफार्म": प्लेटफार्म,
"प्रॉम्प्ट": प्रॉम्प्ट,
"देश": देश,
"कैप्चर की गई": int(time.time()),
"स्थिति": data.get("status"),
"कार्य_आईडी": data.get("task_id"),
"कार्य_परिणाम": data.get("task_result"),
}) + "\n")
print(f"{प्लेटफार्म}: {data.get('status')}")
प्रत्येक पंक्ति answers.jsonl एक प्लेटफार्म के पूर्ण कैप्चर का प्रतिनिधित्व करती है - उत्तर, संदर्भ, और रन मेटाडेटा - जो ऑडिट ट्रेल के लिए task_id द्वारा की गई है।
अपने API कीज़ मुफ्त योजना पर प्राप्त करें: app.scrapeless.com
चरण 2 - संदर्भों को सामान्य बनाना
क्षेत्र मानचित्र पूरी चाल है: प्रत्येक प्लेटफार्म अपने संदर्भ के एरे का नाम अलग-अलग देता है और प्रविष्टियों को अलग-अलग आकार देता है, लेकिन हर प्रविष्टि एक URL ले जाती है। छह मैपिंग्स छह स्कीमाओं को एक स्ट्रीम में बदल देती हैं:
python
# normalize.py — answers.jsonl -> citations.jsonl (एक पंक्ति प्रति संदर्भित स्रोत)
import json
from urllib.parse import urlparse
# प्लेटफार्म -> (array_field, url_key) जोड़ी की सूची जो task_result के अंदर हैं
CITATION_FIELDS = {
"chatgpt": [("content_references", "url")],
"grok": [("web_search_results", "url"), ("x_search_results", "url")],
"gemini": [("citations", "url")],
"perplexity": [("web_results", "url")],
"copilot": [("citations", "url")],
"google-ai-overview": [("source", "url")],
}
with open("answers.jsonl", encoding="utf-8") as inp, \
open("citations.jsonl", "w", encoding="utf-8") as out:
for line in inp:
row = json.loads(line)
result = row.get("task_result") or {}
for field, url_key in CITATION_FIELDS[row["platform"]]:
for entry in result.get(field) or []:
url = entry.get(url_key) or ""
if not url.startswith("http"):
continue
out.write(json.dumps({
"platform": row["platform"],
"prompt": row["prompt"],
"country": row["country"],
"captured_at": row["captured_at"],
"panel": field,
"domain": urlparse(url).netloc.removeprefix("www."),
"url": url,
"title": entry.get("title") or entry.get("name") or "",
}) + "\n")
print(sum(1 for _ in open("citations.jsonl", encoding="utf-8")), "संदर्भ सामान्यीकृत")
Grok दो पंक्तियां जोड़ता है - ओपन-वेब पृष्ठ और X पोस्ट - और panel क्षेत्र उन्हें नीचे की ओर अलग बनाए रखता है।
चरण 3 - संदर्भों का शेयर रिपोर्ट करें
एक संदर्भ स्ट्रीम के साथ, रिपोर्ट एक ग्रुप-बाय है। प्रति प्लेटफार्म: किस डोमेन को इंजन क्रेडिट करता है, और क्या आपका उनमें से एक है:
python
# report.py — citations.jsonl -> प्रति प्लेटफार्म संदर्भ शेयर तालिका
import json
import os
from collections import Counter, defaultdict
ब्रांड = os.environ.get("BRAND_DOMAIN", "scrapeless.com")
प्रति प्लेटफार्म = defaultdict(Counter)
with open("citations.jsonl", encoding="utf-8") as inp:
for line in inp:
row = json.loads(line)
प्रति प्लेटफार्म[row["platform"]][row["domain"]] += 1
for platform, counts in प्रति प्लेटफार्म.items():
total = sum(counts.values())
brand_hits = counts.get(ब्रांड, 0)
print(f"\n{platform} — {total} संदर्भ · {ब्रांड}: {brand_hits}")
for domain, n in counts.most_common(5):
marker = " ←" if domain == ब्रांड else ""
print(f" {n:>3} {domain}{marker}")
एक कार्यक्रम पर चलाने पर, यह तालिका एक समय शृंखला बन जाती है: प्रति प्लेटफार्म, प्रति प्रॉम्प्ट, प्रति बाजार - उत्तरों की संख्या जो आपको संदर्भित करती है, और कौन संदर्भित होता है इसके बजाय। वह श्रृंखला एक GEO कार्यक्रम की रिपोर्ट पर है।
श्रृंखला को शेड्यूलिंग और स्केलिंग करना
- चर धारित करें। हर रन में वही प्रॉम्प्ट, वही
देश, वही Grok मोड - एक श्रृंखला केवल तब पढ़ने योग्य होती है जब प्रक्रिया स्थिर हो। दैनिक या साप्ताहिक कैप्चर करें; एआई उत्तर दोनों समय स्केल पर चलते हैं। - गुणा द्वारा स्केल करें, नई कोड द्वारा नहीं। अधिक प्रॉम्प्ट एक स्टेज 1 के चारों ओर एक लूप है; अधिक बाजार एक दूसरा
COUNTRYहै; दोनों चलाने की संख्या को गुणा करते हैं, इसलिए योजना बनाएं - अभिनेता उपयोग-आधारित बिल करते हैं, वर्तमान स्तरों के साथ मूल्य निर्धारण पृष्ठ पर। - कच्चे कैप्चर रखें।
answers.jsonlरिपोर्ट में हर संख्या के पीछे का सबूत है; सामान्यीकरण विकल्प बदलते हैं, कच्चे उत्तर नहीं। - खाली पैनलों की अपेक्षा करें। कुछ प्रॉम्प्ट कुछ इंजनों पर कोई संदर्भ नहीं देते हैं (विशेष रूप से Grok की X पैनल प्रॉम्प्ट पर निर्भर होती है)। एक खाली एरे एक डेटा बिंदु है, विफलता नहीं।
अभिनेता यूनिवर्सल स्क्रैपिंग एपीआई लाइन में रहते हैं; सर्वश्रेष्ठ LLM स्क्रैपर्स गाइड श्रेणी को रैंक करता है यदि आप उपकरणों की तुलना कर रहे हैं।
अक्सर पूछे जाने वाले प्रश्न
प्रश्न: क्या इस तरह से AI उत्तर कैप्चर करना कानूनी है?
अभिनेता सार्वजनिक रूप से प्रस्तुत उत्तर सामग्री कैप्चर करते हैं। नियम क्षेत्राधिकार द्वारा भिन्न होते हैं और प्रत्येक प्लेटफार्म के नियम — लागू टर्म्स का पुनरावलोकन करें और अपने उपयोग केस के लिए कानूनी सलाह लें। GDPR या CCPA के तहत संरक्षित व्यक्तिगत डेटा कभी न इकट्ठा करें।
प्रश्न: उदाहरण में एक संकेत क्यों, सेट के बजाय?
स्पष्टता। उत्पादन रनों में चरण 1 के चारों ओर एक संकेत सेट लूप होता है; सब कुछ नीचे की ओर पहले से ही कई संकेतों को संभालता है क्योंकि प्रत्येक पंक्ति में अपना संकेत होता है।
प्रश्न: कितने रन एक उपयोगी श्रृंखला बनाते हैं?
एक गैर-नियतात्मक सतह के एकल कैप्चर से बहुत कुछ साबित नहीं होता। दो से तीन सप्ताह के लिए दैनिक कैप्चर अधिकतर संकेत सेट पर प्रवृत्ति को शोर से अलग करने के लिए पर्याप्त बिंदु देते हैं।
प्रश्न: Google's AI मोड टैब के बारे में क्या?
इसका अपना अभिनेता (scraper.aimode) उसी लिफाफे के तहत है — इंजन मानचित्र में एक सातवां प्रवेश जोड़ें। AI अवलोकन गाइड में Google के उत्तर सतहों को गहराई से कवर किया गया है।
प्रश्न: क्या मुझे प्रॉक्सी की आवश्यकता है?
नहीं। आवासीय निकासी और भू-रूटिंग अभिनेताओं में शामिल हैं; देश इनपुट पूरी कॉन्फ़िगरेशन है।
प्रश्न: क्या यह बिना AI एजेंट या SDK के चल सकता है?
हाँ — तीन चरण शुद्ध Python पर HTTP हैं। कोई भी शेड्यूलर (क्रॉन, CI, एक कार्यप्रवाह रनर) उन्हें चला सकता है।
निष्कर्ष: एक लिफाफा, छह इंजन, एक संख्या
पाइपलाइन तीन फ़ाइलों में घटित होती है: छह अभिनेताओं के माध्यम से उत्तर कैप्चर करें जो एक एंडपॉइंट और एक लिफाफा साझा करते हैं, छह प्रेरणा स्कीमाओं को एक छह-लाइन क्षेत्र मानचित्र के साथ सामान्य करें, और डोमेन की गणना करें। आउटपुट वह संख्या है जो AI-युग की दृश्यता के काम की कमी थी — कितनी बार प्रत्येक उत्तर इंजन आपको क्रेडिट देता है, समय के साथ, प्रति मार्केट। इसे शेड्यूल करें और चार्ट खुद को खींच लेता है।
क्या आप अपने AI-उत्तर डेटा पाइपलाइन बनाने के लिए तैयार हैं?
हमारे समुदाय में शामिल हों एक मुफ्त योजना प्राप्त करने के लिए और उन डेवलपर्स से जुड़ें जो AI-उत्तर पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram।
app.scrapeless.com पर मुफ्त परीक्षण क्रेडिट के लिए साइन अप करें, और पाइपलाइन को उन संकेतों, इंजनों और बाजारों की ओर इंगित करें जिनका आपके ब्रांड के उत्तर हैं।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



