परिचय
आजकल के डेटा-प्रेरित परिदृश्य में, संगठनों को वेब सामग्री को निकालने, संसाधित करने और विश्लेषण करने के लिए प्रभावी तरीकों की आवश्यकता होती है। पारंपरिक वेब स्क्रैपिंग कई चुनौतियों का सामना करती है: एंटी-बॉट सुरक्षा, जटिल जावास्क्रिप्ट रेंडरिंग, और निरंतर रखरखाव की आवश्यकता। इसके अलावा, असंरचित वेब डेटा का अर्थ निकालना उन्नत प्रसंस्करण की आवश्यकता होती है।
यह मार्गदर्शिका n8n वर्कफ़्लो स्वचालन, स्क्रैपलेस वेब स्क्रैपिंग, बुद्धिमान निकासी के लिए क्लॉड एआई, और अर्ध-संरचनात्मक भंडारण के लिए क्यूड्रांट वектор डेटाबेस का उपयोग करके एक पूर्ण वेब डेटा पाइपलाइन बनाने का प्रदर्शन करती है। चाहे आप ज्ञान आधार बना रहे हों, बाजार अनुसंधान कर रहे हों, या एक एआई सहायक विकसित कर रहे हों, यह वर्कफ़्लो एक मजबूत आधार प्रदान करता है।
आप क्या बनाएंगे
हमारा n8n वर्कफ़्लो कई अत्याधुनिक तकनीकों को जोड़ता है:
- स्क्रैपलेस वेब अनलॉकर: जावास्क्रिप्ट रेंडरिंग के साथ उन्नत वेब स्क्रैपिंग
- क्लॉड 3.7 सोननेट: एआई-संचालित डेटा निकासी और संरचना
- ओलामा एंबेडिंग: स्थानीय वектор एंबेडिंग पीढ़ी
- क्यूड्रांट वектор डेटाबेस: अर्ध-संरचनात्मक भंडारण और पुनर्प्राप्ति
- सूचना प्रणाली: वेबहुक के माध्यम से वास्तविक समय की निगरानी
यह एंड-टु-एंड पाइपलाइन अव्यवस्थित वेब डेटा को संरचित, वेक्टराइज्ड सूचना में बदल देती है जो अर्ध-संरचनात्मक खोज और एआई अनुप्रयोगों के लिए तैयार होती है।
स्थापना और सेटअप
n8n स्थापित करना
n8n को Node.js v18, v20, या v22 की आवश्यकता होती है। यदि आपको संस्करण संगतता मुद्दों का सामना करना पड़ता है:
# अपने Node.js संस्करण की जांच करें
node -v
# यदि आपके पास एक नया असमर्थित संस्करण है (जैसे, v23+), तो nvm स्थापित करें
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# या Windows के लिए, NVM for Windows इंस्टॉलर का उपयोग करें
# एक उपयुक्त Node.js संस्करण स्थापित करें
nvm install 20
# स्थापित संस्करण का उपयोग करें
nvm use 20
# n8n को वैश्विक रूप से स्थापित करें
npm install n8n -g
# n8n चलाएं
n8n
आपका n8n उदाहरण अब http://localhost:5678 पर उपलब्ध होना चाहिए।
क्लॉड एपीआई सेट करना
- एंथ्रोपिक कंसोल पर जाएं और एक खाता बनाएं
- एपीआई कुंजी अनुभाग में जाएं
- "की बनाएं" पर क्लिक करें और उपयुक्त अनुमतियों को सेट करें
- n8n वर्कफ़्लो में उपयोग के लिए अपनी एपीआई कुंजी कॉपी करें (AI डेटा चेकर्स, क्लॉड डेटा निष्कासीकर्ता और क्लॉड एआई एजेंट में)

स्क्रैपलेस सेट करना
- स्क्रैपलेस पर जाएं और एक खाता बनाएं
- अपने डैशबोर्ड में यूनिवर्सल स्क्रैपिंग एपीआई अनुभाग में जाएं https://app.scrapeless.com/exemple/overview

- n8n वर्कफ़्लो में उपयोग के लिए अपना टोकन कॉपी करें

आप इस कर्ल कमांड का उपयोग करके अपने स्क्रैपलेस वेब स्क्रैपिंग अनुरोध को अनुकूलित कर सकते हैं और इसे n8n में HTTP अनुरोध नोड में सीधे आयात कर सकते हैं:
curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
-H "Content-Type: application/json" \
-H "x-api-token: scrapeless_api_key" \
-d '{
"actor": "unlocker.webunlocker",
"proxy": {
"country": "ANY"
},
"input": {
"url": "https://www.scrapeless.com",
"method": "GET",
"redirect": true,
"js_render": true,
"js_instructions": [{"wait":100}],
"block": {
"resources": ["image","font","script"],
"urls": ["https://example.com"]
}
}
}'

Qdrant को Docker के साथ स्थापित करना
# Qdrant इमेज खींचें
docker pull qdrant/qdrant
# डेटा स्थिरता के साथ Qdrant कंटेनर चलाएं
docker run -d \
--name qdrant-server \
-p 6333:6333 \
-p 6334:6334 \
-v $(pwd)/qdrant_storage:/qdrant/storage \
qdrant/qdrant
सुनिश्चित करें कि Qdrant चल रहा है:
curl http://localhost:6333/healthz
ओलामा स्थापित करना
macOS:
brew install ollama
लिनक्स:
curl -fsSL https://ollama.com/install.sh | sh
Windows: ओलामा की वेबसाइट से डाउनलोड और स्थापना करें।
ओलामा सर्वर शुरू करें:
ollama serve
आवश्यक एम्बेडिंग मॉडल स्थापित करें:
ollama pull all-minilm
मॉडल स्थापना की पुष्टि करें:
ollama list
n8n वर्कफ़्लो सेट करना
वर्कफ़्लो अवलोकन
हमारा वर्कफ़्लो इन प्रमुख घटकों से मिलकर बना है:
- मैनुअल/अनुसूचित ट्रिगर: वर्कफ़्लो शुरू करता है
- संग्रह जाँच: यह सत्यापित करता है कि Qdrant संग्रह मौजूद है
- URL कॉन्फ़िगरेशन: लक्ष्य URL और पैरामीटर सेट करता है
- स्क्रैपलेस वेब अनुरोध: HTML सामग्री निकालता है
- क्लॉड डेटा निकासी: डेटा को संसाधित और संरचित करता है
- ओल्लामा एम्बेडिंग्स: वेक्टर एम्बेडिंग उत्पन्न करता है
- क्यूड्रांट स्टोरेज: वेक्टर और मेटाडेटा सहेजता है
- अधिसूचना: वेबहुक के माध्यम से स्थिति अपडेट भेजता है
चरण 1: वर्कफ़्लो ट्रिगर और संग्रह जांच कॉन्फ़िगर करें
एक मैनुअल ट्रिगर नोड जोड़कर शुरू करें, फिर अपनी क्यूड्रांट संग्रह की जांच के लिए एक HTTP अनुरोध नोड जोड़ें। आप इस प्रारंभिक चरण में संग्रह का नाम कस्टमाइज़ कर सकते हैं - यदि यह मौजूद नहीं है तो वर्कफ़्लो स्वचालित रूप से संग्रह बनाएगा।
महत्वपूर्ण नोट: यदि आप डिफ़ॉल्ट "हैकर-न्यूज़" से अलग संग्रह नाम का उपयोग करना चाहते हैं, तो सुनिश्चित करें कि इसे क्यूड्रांट का संदर्भ लेने वाले सभी नोड्स में एकसार बदला जाए।
चरण 2: स्क्रेपलेस वेब अनुरोध कॉन्फ़िगर करें
स्क्रेपलेस वेब स्क्रैपिंग के लिए एक HTTP अनुरोध नोड जोड़ें। नोड को पूर्व में दिए गए कर्ल कमांड का उपयोग करते हुए कॉन्फ़िगर करें, YOUR_API_TOKEN को अपने वास्तविक स्क्रेपलेस API टोकन से बदलें।
आप स्क्रेपलेस वेब अनलॉकर पर अधिक उन्नत स्क्रैपिंग पैरामीटर कॉन्फ़िगर कर सकते हैं।
चरण 3: क्लॉड डेटा निकासी
क्लॉड का उपयोग करके एचटीएमएल सामग्री को प्रोसेस करने के लिए एक नोड जोड़ें। आपको प्रमाणीकरण के लिए अपना क्लॉड API कुंजी प्रदान करने की आवश्यकता होगी। क्लॉड एक्सट्रैक्टर एचटीएमएल सामग्री का विश्लेषण करता है और JSON प्रारूप में संरचित डेटा लौटाता है।
चरण 4: क्लॉड आउटपुट फ़ॉर्मेट करें
यह नोड क्लॉड की प्रतिक्रिया लेता है और इसे वेक्टराइजेशन के लिए प्रासंगिक जानकारी को उत्खनन करके और इसे उपयुक्त रूप से फ़ॉर्मेट करके तैयार करता है।
चरण 5: ओल्लामा एम्बेडिंग उत्पन्न करें
यह नोड संरचित पाठ को ओल्लामा के लिए एम्बेडिंग उत्पन्न करने के लिए भेजता है। सुनिश्चित करें कि आपका ओल्लामा सर्वर चल रहा है और सभी-मिनिमलम मॉडल स्थापित है।
चरण 6: क्यूड्रांट वेक्टर स्टोरेज
यह नोड उत्पन्न एम्बेडिंग को आपकी क्यूड्रांट संग्रह में प्रासंगिक मेटाडेटा के साथ सहेजता है।
चरण 7: अधिसूचना प्रणाली
आखिरी नोड आपके कॉन्फ़िगर किए गए वेबहुक के माध्यम से वर्कफ़्लो निष्पादन की स्थिति के साथ एक अधिसूचना भेजता है।
सामान्य मुद्दों का निवारण
n8n Node.js संस्करण समस्याएँ
यदि आप ऐसा त्रुटि संदेश देखते हैं:
आपका Node.js संस्करण X वर्तमान में n8n द्वारा समर्थित नहीं है।
कृपया Node.js v18.17.0 (सिफारिश की गई), v20, या v22 का उपयोग करें!
इसे ठीक करने के लिए nvm स्थापित करें और सेटअप अनुभाग में वर्णित अनुसार संगत Node.js संस्करण का उपयोग करें।
स्क्रेपलेस API कनेक्शन समस्याएँ
- सुनिश्चित करें कि आपका API टोकन सही है
- जांचें कि क्या आप API दर सीमाओं को हिट कर रहे हैं
- उचित URL प्रारूपण सुनिश्चित करें
ओल्लामा एम्बेडिंग त्रुटियाँ
सामान्य त्रुटि: कनेक्ट ECONNREFUSED ::1:11434
ठीक करें:
- सुनिश्चित करें कि ओल्लामा चल रहा है: ओल्लामा सर्व
- सुनिश्चित करें कि मॉडल स्थापित है: ओल्लामा पुल सभी-minilm
- लोकलहोस्ट के बजाय सीधे IP (127.0.0.1) का उपयोग करें
- जांचें कि क्या कोई अन्य प्रक्रिया पोर्ट 11434 का उपयोग कर रही है
उन्नत उपयोग परिदृश्य
कई URL का बैच प्रोसेसिंग
एक वर्कफ़्लो निष्पादन में कई URL को प्रोसेस करने के लिए:
- URL को समानांतर में प्रोसेस करने के लिए एक विभाजन बैचों में नोड का उपयोग करें
- प्रत्येक बैच के लिए उचित त्रुटि हैंडलिंग कॉन्फ़िगर करें
- परिणामों को एकत्रित करने के लिए एक मर्ज नोड का उपयोग करें
अनुसूचित डेटा अपडेट
अपनी वेक्टर डेटाबेस को वर्तमान रखें, अनुसूचित अपडेट के साथ:
- मैनुअल ट्रिगर को शेड्यूल नोड के साथ बदलें
- अपडेट आवृत्ति कॉन्फ़िगर करें (दैनिक, साप्ताहिक, आदि)
- केवल नए या परिवर्तित सामग्री को प्रोसेस करने के लिए "यदि" नोड का उपयोग करें
कस्टम एक्सट्रैक्शन टेम्पलेट
क्लॉड की निकासी को विभिन्न सामग्री प्रकारों के लिए अनुकूलित करें:
- समाचार लेखों, उत्पाद पृष्ठों, प्रलेखन आदि के लिए विशिष्ट प्रॉम्प्ट बनाएं
- उपयुक्त प्रॉम्प्ट का चयन करने के लिए स्विच नोड का उपयोग करें
- निकासी टेम्पलेट को पर्यावरण चर के रूप में सहेजें
निष्कर्ष
यह n8n वर्कफ़्लो स्क्रेपलेस वेब स्क्रैपिंग, क्लॉड AI एक्सट्रैक्शन, वेक्टर एम्बेडिंग और क्यूड्रांट स्टोरेज की ताकतों को जोड़ने वाला एक शक्तिशाली डेटा पाइपलाइन बनाता है। इन जटिल प्रक्रियाओं को स्वचालित करके, आप निकाले गए डेटा का उपयोग करने पर ध्यान केंद्रित कर सकते हैं न कि इसे प्राप्त करने की तकनीकी चुनौतियों पर।
n8n की मॉड्यूलर प्रकृति आपको इस वर्कफ़्लो को अतिरिक्त प्रसंस्करण चरणों, अन्य सिस्टम के साथ एकीकृत करने, या आपकी विशिष्ट जरूरतों को पूरा करने के लिए कस्टम लॉजिक के साथ विस्तारित करने की अनुमति देती है। चाहे आप AI ज्ञान आधार बना रहे हों, प्रतिस्पर्धात्मक विश्लेषण कर रहे हों, या वेब सामग्री की निगरानी कर रहे हों, यह वर्कफ़्लो एक ठोस आधार प्रदान करता है।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।