किस प्रकार स्क्रैपलेस स्क्रैपिंग ब्राउज़र के साथ क्यूवेन एआई उत्तरों को स्क्रैप करें
Lead Scraping Automation Engineer
मुख्य बिंदु:
- एक कंपोजर, एक भेजें बटन, एक उत्तर नोड। chat.qwen.ai ("क्वेन स्टूडियो") एक ही कंपोजर
textarea.message-input-textareaप्रदान करता है; इसमें टाइप करें,.message-input-right-button-sendपर क्लिक करें, फिर.response-message-content.phase-answerसे जवाब पढ़ें। संपूर्ण प्रक्रिया में, प्रश्न "फ्रांस की राजधानी क्या है?" का उत्तर "फ्रांस की राजधानी पेरिस है।" मिलता है। - एक अतिथि सत्र को एक बारी मिलती है; अगले मोड़ के लिए लॉगिन की आवश्यकता होती है। एक अनाम क्वेन सत्र एक ही प्रश्न का उत्तर देता है, फिर दूसरा मोड़ आने से पहले "स्वागत / लॉग इन" दीवार दिखाई देती है। वार्तालाप का इतिहास, फाइल अपलोड और छवि निर्माण सभी उस दीवार के पीछे होते हैं - इन्हें एक प्रामाणीकृत आवश्यकता के रूप में संभालें, न कि अतिथि कॉल के रूप में।
- उत्तर के फुटर पर प्रतीक्षा करें, घड़ी पर नहीं। क्वेन उत्तर को एक-एक करके स्ट्रीम करता है। विश्वसनीय "पूर्ण" संकेत उत्तर फुटर (कॉपी नियंत्रण
.copy-response-button) है जो संदेश के नीचे स्थित होता है - एक निश्चित नींद एक आधी लिखी हुई वाक्य को कैप्चर करती है। - युक्ति कार्ड उत्तर से एक अलग नोड है। क्वेन एक संकुचन योग्य "सोचा पूरा हुआ" कार्ड (
.qwen-chat-thinking-status-card-title-text) उत्तर सामग्री से ऊपर प्रदर्शित करता है। इसे अपने आप पहचानें ताकि यदि कोई युक्ति पाठ हो, तो यह आपके उत्तर क्षेत्र में न बह जाए। - आवासीय प्रस्थान को स्थिर करें और प्रत्येक कार्य को एक शेल में रखें। chat.qwen.ai आईपी द्वारा व्यक्तिगत और दर-सीमा निर्धारित करता है, और स्क्रैपिंग ब्राउज़र प्रॉक्सियों, फिंगरप्रिंटिंग और रेंडरिंग को सत्र-स्तरीय चिंताओं के रूप में संभालता है ताकि आपका कोड केवल चयनकर्ताओं और प्रतीक्षाओं के साथ काम करे।
- शुरू करने के लिए निशुल्क। नए स्क्रैपलेस खातों में मुफ्त स्क्रैपिंग ब्राउज़र रनटाइम शामिल है - app.scrapeless.com पर साइन अप करें।
परिचय: क्वेन के उत्तरों को संरचित डेटा में बदलना
क्वेन (अलीबाबा का तोंगी परिवार) सबसे व्यापक रूप से उपयोग किए जाने वाले बड़े भाषा मॉडल सहायकों में से एक है, और टीमें इसके उत्तरों को डेटा के रूप में चाहती हैं: मॉडल-मूल्यांकन और पुनरावृत्ति सेट, ब्रांड-और-श्रेणी उत्तर निगरानी, बहुभाषी ग्राउंडिंग कॉर्पस, और बगल में प्रश्न परीक्षण। लेकिन समस्या यह है कि ये उत्तर एक खुले एचटीएमएल पृष्ठ पर नहीं रहते हैं। ये chat.qwen.ai पर एक हाइड्रेटेड रिएक्ट ऐप में स्ट्रीम किए जाते हैं - इंटरफ़ेस अपने आपको "क्वेन स्टूडियो" के रूप में लेबल करता है - और उत्तर केवल तब मौजूद होता है जब ऐप इसे रेंडर और स्ट्रीम करता है।
यह एक साधारण HTTP फेच को बेकार बनाता है: आपको एक खाली ऐप्लिकेशन शेल मिलता है, कोई उत्तर नहीं। कंपोजर, भेजने का नियंत्रण और उत्तर कंटेनर सभी ऐप-विशिष्ट क्लास नाम हैं जो जब क्वेन एक यूआई अपडेट भेजता है तो बदल जाते हैं, और दूसरा प्रश्न लॉगिन दीवार में पकड़ लेता है। इसलिए असली कार्य यह है कि चैट यूआई को एक ब्राउज़र की तरह चलाना, स्ट्रीम का सेट होना इंतजार करना, और उत्तर (और युक्ति कार्ड, जब एक रेंडर हो) को लाइव DOM से निकालना।
यह पोस्ट स्क्रैपलेस स्क्रैपिंग ब्राउज़र पर एक टर्मिनल-प्रमुख मार्गदर्शिका है। यह एक क्लाउड सत्र बनाता है, क्वेन स्टूडियो खोले, कंपोजर में एक प्रांप्ट टाइप करता है, उत्तर के खत्म होने की प्रतीक्षा करता है, और इसे JSON के रूप में वापस पढ़ता है। नीचे दिए गए हर चयनकर्ता और सिग्नल को chat.qwen.ai के खिलाफ एक वास्तविक स्क्रैपिंग ब्राउज़र रन से लिया गया है। एक सहायक खोज-और-एआई-उत्तर गाइड अंत में लिंक किया गया है।
आप इसके साथ क्या कर सकते हैं
- क्वेन मूल्यांकित डेटासेट बनाएं। उत्तर बहाव को ट्रैक करने के लिए हर टाइमस्टैम्प पर प्रश्न/उत्तर जोड़ियों को पिन करें और मॉडल-पुनरावृत्ति सूट में फीड करें।
- ब्रांड और श्रेणी निगरानी। देखें कि क्वेन आपके उत्पाद, आपके क्षेत्र, या एक विनियमित विषय के बारे में प्रश्नों का उत्तर कैसे देता है, और हफ्तों में प्रतिक्रियाओं का अंतर करें।
- बहुभाषी उत्तर ग्राउंडिंग। चीनी और अंग्रेजी में क्वेन के उत्तरों को कैप्चर करें ताकि क्रॉस-लिंग्वल पुनर्प्राप्ति मूल्यांकन हो सके।
- प्रांप्ट A/B परीक्षण। एक ही प्रश्न को कई वाक्यांशों में चलाएं और जो वापस आता है उसकी तुलना करें।
- युक्ति-ट्रेस झंडे। रिकॉर्ड करें कि क्या एक प्रश्न ने "सोच पूरा हुआ" युक्ति पास को ट्रिगर किया, ताकि आप तेज उत्तरों को विचारित उत्तरों से अलग कर सकें।
- उत्कCitation करना। जब एक प्रांप्ट क्वेन को उसके उत्तर को वेब स्रोतों के साथ ग्राउंड करने के लिए धकेलता है, तो वह स्रोत के लिंक को इकट्ठा करें जो वह सतह में लाता है।
क्यों स्क्रैपलेस स्क्रैपिंग ब्राउज़र
स्क्रैपलेस स्क्रैपिंग ब्राउज़र एक अनुकूलन योग्य, एंटी-डिटेक्शन क्लाउड ब्राउज़र है जिसे वेब क्रॉलर और एआई एजेंटों के लिए डिज़ाइन किया गया है। विशेष रूप से chat.qwen.ai के लिए, यह लाता है:
- 195+ देशों में आवासीय प्रॉक्सी (
--proxy-country,--proxy-state,--proxy-city) — chat.qwen.ai आईपी द्वारा व्यक्तिगत और थ्रॉटल करता है, इसलिए आवासीय प्रस्थान दीर्घकालिक संग्रह के लिए लोड-बेयरिंग प्राइमिटिव है। - क्लाउड में जावास्क्रिप्ट रेंडरिंग — क्वेन स्टूडियो एक हाइड्रेटेड सिंगल-पेज ऐप है; उत्तर नोड केवल तब मौजूद होता है जब ऐप इसे माउंट और स्ट्रीम करता है, जो स्थैतिक एचटीएमएल कभी नहीं देखता।
- हर सत्र पर एंटी-डिटेक्शन फिंगरप्रिंटिंग — क्लाउड ब्राउज़र, एक एंटी-डिटेक्शन क्लाउड ब्राउज़र जो स्व-विकसित क्रोमियम द्वारा समर्थित है, चैट ऐप के लिए असली क्रोम के रूप में प्रस्तुत होता है।
- सत्र धारण और प्रोफाइल — कॉलों के बीच लॉगिन किए गए क्वेन कुकी को जीवित रखें, जो चरण 5 में मल्टी-टर्न पथ को अनलॉक करता है।
- एकल CLI सतह — एक
scrapeless-scraping-browserबाइनरी नेविगेशन, टाइपिंग, क्लिक, प्रतीक्षा, और मूल्यांकन को संचालित करती है, इसलिए पूरा प्रवाह एक ही शेल में रहता है।
अपनी API कुंजी मुफ्त योजना पर app.scrapeless.com पर प्राप्त करें। स्क्रैपिंग ब्राउज़र उत्पाद पृष्ठ रनटाइम के बारे में जानकारी देता है, और पूरी कमांड सेट Scrapeless दस्तावेज़ों में उपलब्ध है।
आवश्यकताएँ
- Node.js 18 या नवीनतम।
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
- JSON पार्सिंग के लिए
jq(वैकल्पिक; नीचे grep फॉलबैक दिखाया गया है)। - मल्टी-टर्न निष्कर्षण के लिए: एक Qwen खाता जो आपके नियंत्रण में है। सिंगल-टर्न गेस्ट फ्लो की आवश्यकता नहीं है; पहले उत्तर के बाद सब कुछ आवश्यक है (चरण 5)।
- टर्मिनल के साथ बुनियादी परिचितता।
इंस्टॉल करें
नीचे दिए गए रेसिपीज़ scrapeless-scraping-browser CLI पर चलती हैं। सेटअप चार छोटे चरणों में है — CLI उपयोगकर्ताओं को #1, #2, और #4 की आवश्यकता होती है; AI-एजेंट उपयोगकर्ता #3 जोड़ते हैं।
1. CLI पैकेज स्थापित करें
bash
npm install -g scrapeless-scraping-browser
यह scrapeless-scraping-browser बाइनरी प्रदान करता है जिसका उपयोग नीचे दिए गए प्रत्येक चरण में किया जाता है। यह स्किल अपनी आई रनटाइम के साथ नहीं आती — यह आपके AI एज़ेंट में कमांड पैटर्न लोड करती है, लेकिन CLI को पहले स्थापित किया जाना चाहिए।
2. अपनी API कुंजी कॉन्फ़िगर करें
अपनी टोकन app.scrapeless.com से प्राप्त करें, फिर इसे उस जगह पर रखें जहां CLI इसे पढ़ सके:
bash
scrapeless-scraping-browser config set apiKey your_api_token_here
scrapeless-scraping-browser config get apiKey # सत्यापित करें
कॉन्फ़िग फ़ाइल ~/.scrapeless/config.json पर रहती है जिसमें वर्तमान उपयोगकर्ता के लिए पहुंच सीमित होती है, और यह पर्यावरण चर पर प्राथमिकता लेती है। CI रनर्स के लिए, इसके बजाय env var पसंद करें:
bash
export SCRAPELESS_API_KEY=your_api_token_here
3. अपने AI एज़ेंट में Scrapeless स्किल स्थापित करें
यह #1 से एक अलग चरण है। चरण 1 ने CLI बाइनरी स्थापित की — रनटाइम जिसे आपका एजेंट कॉल करता है। स्किल यह सिखाती है कि इसे सही तरीके से कैसे कॉल करना है (डिस्कवर → सबमिट → प्रतीक्षा → निष्कर्षण पैटर्न, Qwen चयनकर्ता, प्रतीक्षा रणनीति)। ये दो अलग-अलग चीजें हैं और आपको प्रॉम्प्ट-ड्रिवन वर्कफ़्लो के लिए दोनों की आवश्यकता है।
स्किल एक फ़ोल्डर है जिसमें SKILL.md + skill.json + references/ शामिल हैं। कानूनी स्रोत scrapeless-ai/scrapeless-agent-browser → skills/scraping-browser-skill GitHub पर है; प्रति-एजेंट इंस्टॉल कमांड Scrapeless दस्तावेज़ में हैं। इंस्टॉलेशन के बाद अपने एजेंट को फिर से लोड करें ताकि स्किल सक्रिय हो जाए।
4. इंस्टॉलेशन की पुष्टि करें
Qwen को छूने से पहले एक सुरक्षित प्रॉम्प्ट के साथ स्मोक-टेस्ट:
"Scrapeless स्किल का उपयोग करके, https://example.com खोलें और मुझे पृष्ठ का शीर्षक बताएं।"
आपका एजेंट एक सत्र बनाएगा, पृष्ठ खोलेगा, और "Example Domain" के साथ उत्तर दे देगा। यदि यह काम करता है, तो आप Qwen Studio को चलाने के लिए तैयार हैं।
आप इसे वास्तव में कैसे उपयोग करते हैं: अपने एजेंट को प्रॉम्प्ट करें
इंस्टॉलेशन के बाद, आप Qwen को अपने एजेंट से बात करके स्क्रैप करते हैं — न कि बश को कॉपी-पेस्ट करके। स्किल एजेंट के संदर्भ में Qwen की कॉम्पोज़र/भेजें/उत्तर चयनकर्ता और स्ट्रीम-कंप्लीशन चेक लोड करती है, इसलिए एक-लाइन प्रॉम्प्ट साफ उत्तर JSON लौटाती है।
प्रॉम्प्ट्स जिन्हें आप पेस्ट कर सकते हैं
| आप अपने एजेंट से कहते हैं | आपको क्या मिलता है |
|---|---|
| "कहो Qwen 'फ्रांस की राजधानी क्या है?' और मुझे बस उत्तर दो।" | प्रकट संदेश बॉडी से उत्तर स्ट्रिंग |
| "कहो Qwen 'RAG को दो वाक्यों में समझाओ' और उत्तर + एक तर्क झंडा के साथ JSON लौटाओ।" | { answer, reasoning, model } |
| "इन 5 सवालों को Qwen के माध्यम से चलाएँ और qwen-eval.json में सहेजें।" | एक JSON फ़ाइल, प्रति प्रश्न/उत्तर एक पंक्ति |
| "कहो Qwen 'फ्रांस की राजधानी क्या है' चीनी में सिंगापुर IP पर।" | --proxy-country SG के साथ सत्र बनाया गया, प्रॉम्प्ट चीनी में भेजा गया |
| "कहो Qwen 'जेम्स वेब टेलिस्कोप के बारे में नवीनतम' और किसी भी स्रोत लिंक को भी पकड़ो जो यह उद्धृत करता है।" | { answer, citations: [...] } |
| "क्या Qwen ने 'प्रूव करें कि sqrt(2) निर рационल है' पर तर्क पास किया?" | reasoning: "Thought completed" या null |
कार्यान्वित उदाहरण: एक Qwen उत्तर को टेक्स्ट के रूप में
आप लिखते हैं:
"कहो Qwen 'फ्रांस की राजधानी क्या है? एक छोटे से वाक्य में उत्तर दें।' और बस उत्तर को टेक्स्ट के रूप में लौटाएं।"
एजेंट की योजना (सादा अंग्रेजी में):
- एक आवासीय सत्र तैयार करें (यूएस ईग्रस Qwen Studio के लिए एक अच्छा डिफ़ॉल्ट है)।
https://chat.qwen.ai/खोले, फिर जब तक कंपोजरtextarea.message-input-textareaमौजूद न हो तब तक इंतजार करें।- कंपोजर में प्रश्न भरें और
.message-input-right-button-sendपर क्लिक करें। - उत्तर फ़ूटर (
.copy-response-button) के माउंट होने तक पोल करें — इसका मतलब है कि स्ट्रीम समाप्त हो गई है। .response-message-content.phase-answerपढ़ें और इसका पाठ लौटाएं।
जो आपको वापस मिलता है:
फ्रांस की राजधानी पेरिस है।
यह पूरा उपयोगकर्ता का इंटरफेस है। चयनकर्ता खोज, पूर्णता पोल, और चरण 1–4 में JSON आकार देना ये सब हैं जो कौशल को एजेंट चलाने के लिए बनाते हैं — आप इनमें से कोई भी टाइप नहीं करते।
प्रांप्ट को आकार देना: आपको जो लौटता है उसे नियंत्रित करने का तरीका
| वाक्य निर्माण | प्रभाव |
|---|---|
| "…केवल उत्तर" / "…एक तर्क फ्लैग के साथ" | एजेंट कौन से फ़ील्ड लौटाता है |
| "…JSON के रूप में" / "…सादा पाठ के रूप में" | आउटपुट फ़ॉर्मेट |
| "…चाइनीज में" / "…इंग्लिश में" | प्रांप्ट भाषा |
| "…सिंगापुर आईपी पर" / "…जर्मनी से" | --proxy-country सेट करता है |
| "…qwen-eval.json में सहेजें" | फ़ाइल में लिखता है |
| "…10 प्रश्नों को चलाएँ" | लूप — प्रत्येक प्रश्न पर ताज़ा सत्र |
नीचे चरण 1–6 यह आंतरिक संदर्भ हैं — उन्हें एक बार पढ़ें यह देखने के लिए कि खुला → सबमिट → इंतजार → निकालने का पैटर्न कैसे संकलित होता है, फिर अपने एजेंट पर भरोसा करें कि वह इसे लागू करे। एजेंट के बाहर स्क्रिप्टिंग ठीक उसी तरह काम करती है; कौशल केवल तेज़ रास्ता है।
चरण 1 — स्क्रैपलेस स्क्रैपिंग ब्राउज़र से कनेक्ट करें
किसी भी पृष्ठ को खोलने से पहले आवासीय इग्रेस के साथ एक सत्र मिंट करें। सत्र के जीवन के लिए प्रॉक्सी भूगोल निश्चित है।
bash
SESSION=$(scrapeless-scraping-browser new-session \
--name "qwen-us" \
--ttl 1800 \
--proxy-country US \
--json | jq -r '.data.taskId')
echo "सत्र: $SESSION"
jq के बिना पोर्टेबल फॉलबैक:
bash
SESSION=$(scrapeless-scraping-browser new-session \
--name "qwen-us" --ttl 1800 --proxy-country US --json \
| grep -oE '"taskId":"[^"]*"' | cut -d'"' -f4)
अमेरिकी आवासीय इग्रेस Qwen स्टूडियो को साफ़ दिखाता है। Qwen एक वैश्विक उत्पाद है, इसलिए किसी भी स्थिर आवासीय देश का काम करता है; भूगोल को उस स्थान से मिलाएं जिसमें आप Qwen से उत्तर प्राप्त करना चाहते हैं।
चरण 2 — Qwen स्टूडियो खोलें और सही इंतजार चुनें
chat.qwen.ai खोलें, फिर एक इंतजार रणनीति तय करें। एक चैट ऐप एक लाइव कनेक्शन को स्ट्रीमिंग के लिए खुला रखता है, इसलिए --load networkidle rarely एक चुप्पा विंडो तक पहुँचता है — यह अटक जाता है। विश्वसनीय पैटर्न एक निश्चित wait होता है जो कंपोजर की गिनती के बाद तैयारता चेक होता है।
bash
scrapeless-scraping-browser --session-id $SESSION open "https://chat.qwen.ai/"
scrapeless-scraping-browser --session-id $SESSION wait 4000
# तैयारता संकेत: एकल कंपोजर टेक्स्टएरिया ने माउंट किया है।
scrapeless-scraping-browser --session-id $SESSION eval \
'document.querySelectorAll("textarea.message-input-textarea").length' # 1 की अपेक्षा करें
| रणनीति | Qwen स्टूडियो पर व्यवहार | सिफारिश |
|---|---|---|
wait --load networkidle |
स्ट्रीमिंग कनेक्शन नेटवर्क को व्यस्त रखता है; seldom व्यवस्थित होता है | chat.qwen.ai के लिए टालें |
wait 4000 (निर्धारण) |
यह निश्चित है — तब ऐप ने हाइड्रेट किया है | डिफ़ॉल्ट |
eval कंपोजर गिनती === 1 |
वास्तविक तैयारता — इनपुट इंटरैक्टिव है | टाइपिंग से पहले गेट के रूप में उपयोग करें |
पृष्ठ शीर्षक "Qwen Studio" पढ़ता है और बैनर सक्रिय मॉडल लेबल (उदाहरण के लिए, Qwen3.7-Plus) के बगल में एक मोड चयनकर्ता दर्शाता है जो ऑटो पर सेट है। उत्तर पढ़ने के लिए आपको इनमें से किसी को बदलने की आवश्यकता नहीं है।
चरण 3 — एक प्रांप्ट सबमिट करें
Qwen स्टूडियो बिल्कुल एक कंपोजर, textarea.message-input-textarea को उजागर करता है। भेजने का नियंत्रण केवल तभी सक्रिय होता है जब कंपोजर वास्तविक कीस्ट्रोक पकड़ता है — एक प्रोग्रामेटिक fill मान सेट करता है बिना कंपोजर के इनपुट स्थिति को सक्रिय किए, इसलिए बटन निष्क्रिय रहता है। UI को एक पल दें, फिर भेजें पर क्लिक करें।
यदि आप इसे एक ताज़ा निर्माण के खिलाफ वायर कर रहे हैं, तो पहले चयनकर्ताओं की खोज करें बजाय इसके कि इन्हें हूबहू मान लें — Qwen विभिन्न रिलीज़ के साथ वर्ग नाम बदलता है:
bash
# खोजें: उन्हें चलाने से पहले कंपोजर और किसी भी भेजने के नियंत्रण की पुष्टि करें।
scrapeless-scraping-browser --session-id $SESSION get html "main"
फिर सबमिट करें:
bash
PROMPT="फ्रांस की राजधानी क्या है? एक छोटे वाक्य में उत्तर दें।"
scrapeless-scraping-browser --session-id $SESSION type \
"textarea.message-input-textarea" "$PROMPT"
# जब वास्तविक कीस्ट्रोक कंपोजर में पहुंचते हैं तो भेजने वाला बटन सक्रिय होता है।
scrapeless-scraping-browser --session-id $SESSION wait 600
scrapeless-scraping-browser --session-id $SESSION click ".message-input-right-button-send"
केंद्रित कंपोजर में Enter दबाने से समान प्रांप्ट सबमिट होता है — type के बाद Enter दबाना एक समकक्ष पथ है, जब भेजने का बटन अभी तक सक्रिय नहीं हुआ है तब सहायक होता है।
सबमिट पर, Qwen URL को / से /c/new-chat पर रूट करता है /c/guest और आपके प्रश्न को उपयोगकर्ता संदेश के रूप में प्रस्तुत करता है, सहायक उत्तर नीचे माउंट होता है।
अपना API कुंजी मुफ्त योजना पर प्राप्त करें: app.scrapeless.com
चरण 4 — स्ट्रीम का इंतजार करें, फिर उत्तर निकालें
Qwen उत्तर को टोकन द्वारा स्ट्रीम करता है, इसलिए DOM को बहुत जल्दी पढ़ने से आपको एक आंशिक वाक्य मिलता है। स्वच्छ पूर्णता संकेत प्रति संदेश पाद लेखन है — कॉपी नियंत्रण (.copy-response-button) केवल तब दिखाई देता है जब स्ट्रीम समाप्त हो जाता है। इसके लिए पोल करें, फिर एक निकासी चलाएँ।
bash
# पूर्णता पोल: उत्तर पूरी तरह से प्रदर्शित होने पर कॉपी नियंत्रण माउंट होता है।
for i in 1 2 3 4 5 6 7 8; do
DONE=$(scrapeless-scraping-browser --session-id $SESSION eval '
document.querySelector(".chat-response-message .copy-response-button") ? "done" : "streaming"
' | tail -1 | tr -d '"')
[ "$DONE" = "done" ] && break
sleep 1
done
# निकालें: उत्तर शरीर, तर्क ध्वज, और कोई भी स्रोत लिंक — प्रति क्षेत्र संरक्षित।
scrapeless-scraping-browser --session-id $SESSION eval '
(function(){
const msg = document.querySelector(".qwen-chat-message-assistant, .chat-response-message");
if (!msg) return JSON.stringify({ answer: null });
const body = msg.querySelector(".response-message-content.phase-answer, .custom-qwen-markdown");
const reasoning = msg.querySelector(".qwen-chat-thinking-status-card-title-text");
const cites = Array.from(msg.querySelectorAll(".qwen-markdown a[href^=\"http\"]"))
.map(a => ({ url: a.href, text: a.textContent.trim().slice(0, 80) }));
return JSON.stringify({
url: location.href,
reasoning: reasoning ? reasoning.textContent.trim() : null,
answer: body ? body.textContent.trim() : null,
citations: cites,
});
})()
'
सत्यापन परीक्षण पर यह वास्तविक उत्तर टेक्स्ट फ्रांस की राजधानी पेरिस है।, तर्क का मूल्य विचार पूरा हुआ (संक्षिप्त तर्क कार्ड मौजूद था), और एक खाली उद्धरण सूची लौटाई — एक संक्षिप्त तथ्यात्मक प्रॉम्प्ट Qwen को वेब स्रोतों के साथ जमीन पर ले जाने के लिए मजबूर नहीं करता।
चयनकर्ता नोट्स:
- सहायक संदेश
.qwen-chat-message-assistantमें लिपटा हुआ है (जो.chat-response-messageके माध्यम से भी पहुँचा जा सकता है); उत्तर पाठ.response-message-content.phase-answerमें स्थित है, जो.qwen-markdownअनुच्छेदों के रूप में प्रदर्शित होता है। - तर्क कार्ड (
.qwen-chat-thinking-status-card-title-text) उत्तर शरीर का एक भाई है, इसका बच्चा नहीं — इसे अलग से प्रश्न करें ताकि "विचार पूरा हुआ" लेबल कभी आपकेउत्तरक्षेत्र में न आए। उद्धरणको नल योग्य समझें। यह केवल तबPopulate होता है जब Qwen एक वेब-ग्राउंडेड प्रॉम्प्ट के लिए स्रोत लिंक दिखाता है।
चरण 5 — प्रमाणित, मल्टी-टर्न सत्र (पूर्वापेक्षा)
अतिथि सतह केवल एक प्रश्न का उत्तर देती है। पहले उत्तर के बाद, Qwen एक "स्वागत" मोडल उठाता है — "Qwen से चैट करने के लिए लॉगिन या साइन अप करें, फ़ाइल और छवि अपलोड करें, छवि या वीडियो उत्पन्न करें, और अधिक" — जिसमें लॉगिन, साइन अप, और बाहर लॉग इन रहें बटन होते हैं। "बाहर लॉग इन रहें" आपको पहले से मौजूद एकल उत्तर को पढ़ने की अनुमति देता है, लेकिन एक दूसरा मोड़, बातचीत का इतिहास, फ़ाइल अपलोड, और छवि या वीडियो उत्पादन सभी के लिए एक खाते की आवश्यकता होती है।
यह लॉगिन दीवार एक पूर्वापेक्षा है, ऐसा कुछ नहीं जिसे फ़र्ज़ी बनाना हो। एक मल्टी-टर्न बातचीत निकालने के लिए:
- लॉगिन स्थिति को बनाए रखें, क्योंकि एक सत्र तब समाप्त होता है जब इसका कनेक्शन बंद हो जाता है। CLI के
cookies setके साथ अपने खाते से निर्यातित Qwen सत्र कुकीज को इंजेक्ट करें, या प्रमाण पत्र को एक बार ऑथ वाल्ट में सहेजें (auth save <name>) और उन्हें एक नए सत्र मेंauth login <name>के साथ पुनः चलाएं — कुकी और प्रमाण ध्वजों के लिए Scrapeless दस्तावेज़ देखें। - हर कॉल पर उस स्थिति का पुनः उपयोग करें बजाय हर मोड़ पर पुनः प्रमाणित करने के।
- बातचीत को चलाएँ उसी प्रकार → क्लिक → इंतजार करें → निकालें लूप के साथ जो चरण 3–4 में है; प्रत्येक नया मोड़ एक और
.qwen-chat-message-assistantनोड जोड़ता है जिसे आप उसी तरह पढ़ते हैं। एक मल्टी-टर्न सत्र के लिए जिसे एकल कनेक्शन से अधिक अवधि में जीवित रहना चाहिए,@scrapeless-ai/sdkTypeScript पथ उस स्थायी कनेक्शन को रखता है जो CLI नहीं करता है।
संदर्भित जानकारी को पर्यावरण चर या अपने गुप्त प्रबंधक में रखें, कभी भी स्क्रिप्ट में नहीं। एकल-टर्न अतिथि उत्तर को इसकी आवश्यकता नहीं है; प्रमाणित प्रवाह का उपयोग केवल तब करें जब पाइपलाइन वास्तव में एक से अधिक मोड़ों की आवश्यकता होती है।
चरण 6 — स्केलिंग: प्रति-कार्य CLI राज्य को अलग करना
एक ही होस्ट पर कई Qwen कार्यों को एक साथ चलाना सावधानी की आवश्यकता है, क्योंकि CLI कंसोल में राज्य साझा करता है। समानांतर लोड के तहत जिन प्राइमिटिव्स का समर्थन होता है:
- सिंगल-शेल चेनिंग। किसी नौकरी के पूरे अनुक्रम को एक रासायनिक शेल इनवोकेशन में चलाएं ताकि अन्य श्रमिक आपके चरणों के बीच इंटरलीव न कर सकें। चेन ऑपरेटर पर एक चेतावनी:
openसफल नेविगेशन पर भी गैर-शून्य छोड़ता है (कुछ पृष्ठों के कारण अंतर्निहितpage.gotoपहले से ही उपयोग के योग्य पृष्ठ पर थ्रो हो जाता है), इसलिए इसे&&के बजाय;से अलग करें और अपनी स्थिति की जांचeval 'location.href'के साथ करें, इसके निकास कोड पर ना जाकर —new-session && open "https://chat.qwen.ai/" ; wait 4000 && type … && click … && eval …। यह सिंगल-शेल एटॉमिकिटी लोड-बेयरिंग प्राइमिटिव है। - प्रत्येक श्रमिक के लिए अद्वितीय सत्र नाम। डेमन शेल के बीच स्थिति साझा करता है, इसलिए एक अद्वितीय सत्र नाम एक श्रमिक के कॉल को दूसरे के सत्र में रूटिंग से रोकता है।
- प्रत्येक होस्ट पर ~3 समवर्ती श्रमिकों मेंCap। इसके आगे, प्रतियोगिता बढ़ जाती है। अधिक फैले के लिए, श्रमिकों को अलग-अलग होस्ट के बीच विभाजित करें — डेमन की स्थिति प्रति-होस्ट है, प्रति-खाता नहीं।
एक स्थिर मूल्यांकन पाइपलाइन के लिए, होस्ट प्रति अनुक्रम आसान और काफी होता है: एक बार में एक Qwen प्रश्न, बाकी को कतार में लगाएं।
आपको क्या वापस मिलता है
चरण 4 एक्सट्रैक्टर url, reasoning, answer, और citations लौटाता है; इसके चारों ओर query, model, और authenticated फ़ील्ड समृद्ध होते हैं — वह प्रॉम्प्ट जो आपने भेजा, चरण 2 में पढ़ा गया बैनर मॉडल लेबल, और क्या सत्र लॉग इन था। नीचे हर मूल्य एक वास्तविक कैप्चर से है।
json
{
"query": "फ्रांस की राजधानी क्या है? एक छोटे वाक्य में उत्तर दें।",
"url": "https://chat.qwen.ai/c/guest",
"model": "Qwen3.7-Plus", // बैनर मॉडल लेबल से पढ़ा गया; इसे पिन करें ताकि मूल्यांकन पंक्तियाँ तुलनात्मक बनी रहें
"reasoning": "सोच पूरा हुआ", // शून्य जब प्रश्न ने कोई तर्क पारित नहीं किया
"answer": "फ्रांस की राजधानी पेरिस है।",
"citations": [], // केवल तब जनित होता है जब Qwen अपने उत्तर को वेब स्रोतों के साथ आधार बनाता है
"authenticated": false // अतिथि = एक मोड़; सही एक बार जब आप लॉग-इन सत्र का पुन : उपयोग करते हैं
}
ईमानदार अवलोकन:
- उत्तर आ रहा है, इसलिए इसे केवल उत्तर पाद लेख के लगने के बाद पढ़ें (चरण 4) — अन्यथा आप एक अधूरा वाक्य कैप्चर कर लेंगे।
reasoningकई संक्षिप्त तथ्यात्मक प्रॉम्प्ट्स के लिएnullहै। Qwen केवल "सोच पूरा हुआ" कार्ड पेश करता है जब उसने तर्क पारित किया हो, इसलिए इसे एक संकेत के रूप में प्रयोग करें, गारंटी के रूप में नहीं।citationsखाली रहता है जब तक प्रॉम्प्ट Qwen को अपने उत्तर को वेब स्रोतों के साथ आधार बनाने के लिए मजबूर नहीं करता। क्षेत्र को डाउनस्ट्रीम पर नल करने के रूप में सुरक्षित करें।authenticated: falseएक वैध स्थिति है, यह एक विफलता नहीं है — अतिथि सतह एक प्रश्न का उत्तर देती है, और लॉगिन दीवार (चरण 5) कुछ अधिक के लिए सीमा है।- बैनर मॉडल लेबल उस मॉडल को दर्शाता है जिस पर Qwen स्टूडियो ने डिफ़ॉल्ट किया; इसे प्रति पंक्ति रिकॉर्ड करें ताकि एक मॉडल स्वैप आपकी मूल्यांकन सेट को चुपचाप मिश्रित न करे।
निष्कर्ष
Qwen को स्क्रैप करना chat.qwen.ai को उस स्ट्रीमिंग ऐप के रूप में समझने पर आधारित है जो यह है: एक आवासीय क्लाउड सत्र बनाएं, Qwen स्टूडियो खोलें, एक निर्माता में टाइप करें, उत्तर पाद लेख के लगने का इंतज़ार करें, और हाइड्रेटेड DOM से उत्तर पढ़ें। वास्तविक संकेत पर हर क्षेत्र की रक्षा करें - उत्तर शरीर तर्क कार्ड से अलग, संदर्भ नल करने योग्य के रूप में — ताकि आपकी स्कीमा विश्वसनीय बनी रहे जब Qwen UI परिवर्तन भेजता है। सीमा को याद रखें: एक अतिथि सत्र एक साफ उत्तर के लिए अच्छा है, और इसके आगे सब कुछ लॉगिन दीवार के पीछे रहता है, इसलिए केवल तब मान्य, कुकी-स्थायी प्रवाह के लिए पहुँचें जब बहु-परिवर्तन वास्तव में आवश्यक हो। इसी पैटर्न के खोज-और-AI-उत्तर पक्ष के लिए, देखें कैसे Google खोज परिणामों को स्क्रैप करें स्क्रैपलेस स्क्रैपिंग ब्राउज़र से, और प्राइसिंग पेज पर रनटाइम और योजनाओं की तुलना करें।
अपने एआई-संचालित डेटा पाइपलाइन को बनाने के लिए तैयार हैं?
हमारे समुदाय में शामिल हों, एक नि:शुल्क योजना का दावा करें और उन डेवलपर्स के साथ जुड़ें जो LLM-उत्तर निकालने के पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram।
app.scrapeless.com पर साइन अप करें मुफ्त स्क्रैपिंग ब्राउज़र रनटाइम के लिए और ऊपर दिए गए पैटर्न को Qwen प्रॉम्प्ट, स्थलों और प्रमाणीकृत वार्तालापों के लिए अनुकूलित करें जिनकी आपकी पाइपलाइन को आवश्यकता है।
सामान्य प्रश्न
प्रश्न: क्या Qwen को स्क्रैप करना कानूनी है?
उत्तर: विश्लेषण, मॉडल मूल्यांकन और अनुसंधान के लिए सार्वजनिक रूप से दृश्यमान उत्तर एकत्र करना अधिकांश न्यायालयों में चौड़ा अनुमत है, लेकिन Qwen और अलीबाबा की सेवा की शर्तें अभी भी लागू होती हैं, और कानून क्षेत्र के आधार पर भिन्न होते हैं। व्यावसायिक तैनाती से पहले लक्षित शर्तों की समीक्षा करें और सलाह लें, विशेष रूप से उत्पन्न सामग्री को संग्रहीत करने या किसी भी चीज के संबंध में जो व्यक्तिगत डेटा को छूती है।
प्रश्न: क्या मुझे एक प्रॉक्सी की आवश्यकता है?
A: हाँ। chat.qwen.ai IP द्वारा व्यक्तिगत और दर-सीमा निर्धारित करता है, और एक एकल कच्चा IP तेजी से थ्रॉटलिंग को आकर्षित करता है। रेजिडेंशियल ईग्रेस को --proxy-country के साथ पिन करें (चरण 1); उस देश से मेल खाएं जिसमें आप चाहते हैं कि Qwen उत्तर दे।
Q: Qwen "स्वागत / लॉग इन" दीवार दिखाता है - मैं साफ़ रेंडर कैसे प्राप्त करूँ?
A: एकल उत्तर के लिए, गेस्ट सतह बिना लॉगिन के काम करती है - पहले https://chat.qwen.ai/ खोलकर सत्र को गर्म करें और सुनिश्चित करें कि कंपोजर सेट हो गया है (चरण 2) पहले टाइप करने से पहले, और रेजिडेंशियल ईग्रेस को पिन रखें। केवल मल्टी-टर्न पथ को एक खाता चाहिए; यह चरण 5 में प्रामाणिक प्री-योग्यता है, जहां इंजेक्टेड कुकीज़ या ऑथ वॉल्ट लॉगिन को कॉल के बीच बनाए रखते हैं।
Q: Qwen अपडेट के बाद सेलेक्टर्स मेल खाने बंद हो गए - अब क्या?
A: Qwen स्टूडियो रिलीज के दौरान क्लास नामों को बदलता है। get html "main" के साथ लाइव DOM को फिर से खोजें और अपने सेलेक्टर्स को वास्तव में जो रेंडर किया गया है उसके खिलाफ कसें। स्थिर एंकर पर भरोसा करें: एकल कंपोजर textarea.message-input-textarea, सहायक रैपर .qwen-chat-message-assistant, और उत्तर सामग्री .response-message-content.phase-answer।
Q: मैं कितने Qwen सत्रों को समानांतर में चला सकता हूँ?
A: इसे प्रति होस्ट लगभग तीन श्रमिकों तक सीमित रखें, प्रत्येक कार्य की CLI कॉल को एक ही शेल में श्रृंखलाबद्ध करें, और हर श्रमिक को एक अद्वितीय सत्र नाम दें (चरण 6)। अधिक थ्रूपुट के लिए, होस्ट के बीच में विभाजित करें बजाय एक में श्रमिकों को स्टैक करने के।
Q: क्या मैं इसे बिना AI एजेंट के कर सकता हूँ?
A: हाँ। उपरोक्त बैश अपने आप में अंत से अंत तक चलता है। यह कौशल केवल आपके एजेंट को एक-लाइन के प्रॉम्प्ट से उसी ओपन → सबमिट → वेट → एक्सट्रैक्ट लूप को चलाने की अनुमति देता है, जो अनुशंसित पथ है लेकिन आवश्यक नहीं है।
Q: मैं Qwen के reasoning trace को कैसे कैप्चर करूँ?
A: .qwen-chat-thinking-status-card-title-text के साथ reasoning कार्ड का पता लगाएं; समकुचित "Thought completed" लेबल इस बात का संकेत है कि एक reasoning पास चलाया गया। इसे .response-message-content.phase-answer से अलग से क्वेरी करें ताकि reasoning टेक्स्ट और अंतिम उत्तर अलग-अलग क्षेत्रों में रहें, और यदि आपको श्रृंखला की आवश्यकता हो तो कार्ड को विस्तारित करें।
Q: क्या Qwen चीनी या अंग्रेजी में उत्तर देगा?
A: यह प्रॉम्प्ट भाषा और खाता या प्रॉक्सी स्थानीयता पर निर्भर करता है। लक्षित भाषा में पूछें और उत्तरों को एक बहुभाषी मूल्यांकन सेट में सुसंगत रखने के लिए एक मेल खाने वाला --proxy-country पिन करें।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



