न8न पर स्क्रैपलेस का उपयोग करके एआई पावर्ड पाइपलाइन कैसे बनाएं?

Advanced Data Extraction Specialist
परिचय
आज के डेटा-संचालित परिदृश्य में, संगठनों को वेब सामग्री को निकालने, संसाधित करने और विश्लेषण करने के लिए कुशल तरीके की आवश्यकता होती है। पारंपरिक वेब स्क्रैपिंग कई चुनौतियों का सामना करती है: एंटी-बॉट सुरक्षा, जटिल जावास्क्रिप्ट रेंडरिंग, और निरंतर रखरखाव की आवश्यकता। इसके अलावा, अव्यवस्थित वेब डेटा की व्याख्या करना जटिल प्रसंस्करण की मांग करता है।
यह मार्गदर्शिका दिखाती है कि n8n कार्यप्रवाह स्वचालन, Scrapeless वेब स्क्रैपिंग, बुद्धिमान निकासी के लिए Claude AI, और सेमांटिक स्टोरेज के लिए Qdrant वेक्टर डेटाबेस का उपयोग करके एक पूर्ण वेब डेटा पाइपलाइन कैसे बनानी है। चाहे आप ज्ञान आधार बना रहे हों, बाजार अनुसंधान कर रहे हों, या एक AI सहायक विकसित कर रहे हों, यह कार्यप्रवाह एक शक्तिशाली नींव प्रदान करता है।
आप क्या बनाएंगे
हमारा n8n कार्यप्रवाह कई अत्याधुनिक तकनीकों को जोड़ता है:
- Scrapeless वेब अनलॉकर: जावास्क्रिप्ट रेंडरिंग के साथ उन्नत वेब स्क्रैपिंग
- Claude 3.7 सोननेट: AI-संचालित डेटा निकासी और संरचना
- Ollama एम्बेडिंग: स्थानीय वेक्टर एम्बेडिंग जेनरेशन
- Qdrant वेक्टर डेटाबेस: सेमांटिक स्टोरेज और पुनर्प्राप्ति
- अधिसूचना प्रणाली: वेबहुक के माध्यम से वास्तविक समय की निगरानी
यह एंड-टू-एंड पाइपलाइन अव्यवस्थित वेब डेटा को संरचित, वेक्टराइज्ड जानकारी में बदल देती है, जो सेमांटिक खोज और AI अनुप्रयोगों के लिए तैयार है।
स्थापना और सेटअप
n8n स्थापित करना
n8n को Node.js v18, v20, या v22 की आवश्यकता होती है। यदि आप संस्करण संगतता समस्याओं का सामना करते हैं:
# अपने Node.js संस्करण की जांच करें
node -v
# यदि आपके पास एक नई अप्रयुक्त संस्करण है (जैसे, v23+), तो nvm स्थापित करें
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# या Windows के लिए, NVM के Windows इंस्टॉलर का उपयोग करें
# एक संगत Node.js संस्करण स्थापित करें
nvm install 20
# स्थापित संस्करण का उपयोग करें
nvm use 20
# n8n को वैश्विक स्तर पर स्थापित करें
npm install n8n -g
# n8n चलाएँ
n8n
आपका n8n उदाहरण अब http://localhost:5678 पर उपलब्ध होना चाहिए।
Claude API सेट करना
- Anthropic कंसोल पर जाएं और एक खाता बनाएं
- API कुंजी अनुभाग पर जाएं
- "कुंजी बनाएँ" पर क्लिक करें और उचित अनुमति सेट करें
- n8n कार्यप्रवाह में उपयोग के लिए अपनी API कुंजी कॉपी करें (AI डेटा चेकर्स, Claude डेटा एक्स्ट्रैक्टर और Claude AI एजेंट में)
Scrapeless सेट करना
-
Scrapeless पर जाएं और एक खाता बनाएं
-
अपने डैशबोर्ड में यूनिवर्सल स्क्रैपिंग API अनुभाग पर जाएं
-
n8n कार्यप्रवाह में उपयोग के लिए अपना टोकन कॉपी करें
आप अपने Scrapeless वेब स्क्रैपिंग अनुरोध को इस curl कमांड का उपयोग करके कस्टमाइज़ कर सकते हैं और इसे n8n में HTTP अनुरोध नोड में सीधे आयात कर सकते हैं:
curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
-H "Content-Type: application/json" \
-H "x-api-token: scrapeless_api_key" \
-d '{
"actor": "unlocker.webunlocker",
"proxy": {
"country": "ANY"
},
"input": {
"url": "https://www.scrapeless.com",
"method": "GET",
"redirect": true,
"js_render": true,
"js_instructions": [{"wait":100}],
"block": {
"resources": ["image","font","script"],
"urls": ["https://example.com"]
}
}
}'
Docker के साथ Qdrant स्थापित करना
# Qdrant इमेज खींचें
docker pull qdrant/qdrant
# डेटा स्थिरता के साथ Qdrant कंटेनर चलाएँ
docker run -d \
--name qdrant-server \
-p 6333:6333 \
-p 6334:6334 \
-v $(pwd)/qdrant_storage:/qdrant/storage \
qdrant/qdrant
Qdrant चल रहा है या नहीं यह सत्यापित करें:
curl http://localhost:6333/healthz
Ollama स्थापित करना
macOS:
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: Ollama की वेबसाइट से डाउनलोड और स्थापित करें।
Ollama सर्वर शुरू करें:
ollama serve
आवश्यक एम्बेडिंग मॉडल स्थापित करें:
ollama pull all-minilm
मॉडल स्थापना का सत्यापन करें:
ollama list
n8n कार्यप्रवाह सेट करना
कार्यप्रवाह का अवलोकन
हमारा कार्यप्रवाह इन मुख्य घटकों से बना है:
- मैन्युअल/अनुसूचित ट्रिगर: कार्यप्रवाह शुरू करता है
- संग्रह जांच: यह सत्यापित करता है कि Qdrant संग्रह मौजूद है
- URL कॉन्फ़िगरेशन: लक्ष्य URL और पैरामीटर निर्धारित करता है
- Scrapeless वेब अनुरोध: HTML सामग्री को निकालता है
- Claude डेटा निकासी: डेटा को संसाधित और संरचना करता है
- ओलामा एम्बेडिंग: वेक्टर एम्बेडिंग उत्पन्न करता है
- क्यूड्रांट संग्रहण: वेक्टर और मेटाडेटा को सहेजता है
- अधिसूचना: वेबहुक के माध्यम से स्थिति अपडेट भेजता है
चरण 1: कार्यप्रवाह ट्रिगर और संग्रह की जांच को कॉन्फ़िगर करें
एक मैन्युअल ट्रिगर नोड जोड़ने से शुरू करें, फिर यह जाँच करने के लिए एक HTTP अनुरोध नोड जोड़ें कि क्या आपका क्यूड्रांट संग्रह मौजूद है। आप इस प्रारंभिक चरण में संग्रह का नाम अनुकूलित कर सकते हैं - यदि संग्रह मौजूद नहीं है तो कार्यप्रवाह स्वचालित रूप से इसे बना देगा।
महत्वपूर्ण नोट: यदि आप डिफ़ॉल्ट "हैकर-न्यूज़" के बजाय एक अलग संग्रह नाम का उपयोग करना चाहते हैं, तो सुनिश्चित करें कि इसे क्यूड्रांट से संदर्भित सभी नोड्स में लगातार बदलें।
चरण 2: Scrapeless वेब अनुरोध को कॉन्फ़िगर करें
Scrapeless वेब स्क्रैपिंग के लिए एक HTTP अनुरोध नोड जोड़ें। नोड को पूर्व में प्रदान किए गए कर्ल आदेश का उपयोग करते हुए कॉन्फ़िगर करें, जिसमें YOUR_API_TOKEN को आपके वास्तविक Scrapeless API टोकन से बदलें।
आप Scrapeless वेब अनलॉकर पर अधिक उन्नत स्क्रैपिंग पैरामीटर कॉन्फ़िगर कर सकते हैं।
चरण 3: क्लॉड डेटा निष्कर्षण
HTML सामग्री को संसाधित करने के लिए एक नोड जोड़ें। आपको प्रमाणीकरण के लिए अपना क्लॉड API कुंजी प्रदान करनी होगी। क्लॉड निष्कर्षणकर्ता HTML सामग्री का विश्लेषण करता है और JSON प्रारूप में संरचित डेटा लौटाता है।
चरण 4: क्लॉड आउटपुट प्रारूपित करें
यह नोड क्लॉड के उत्तर को लेता है और इसे वेक्टराइजेशन के लिए प्रासंगिक जानकारी निकालकर और इसे उपयुक्त रूप से प्रारूपित करके तैयार करता है।
चरण 5: ओलामा एम्बेडिंग उत्पन्न करें
यह नोड संरचित पाठ को एम्बेडिंग उत्पन्न करने के लिए ओलामा को भेजता है। सुनिश्चित करें कि आपका ओलामा सर्वर चल रहा है और all-minilm मॉडल स्थापित है।
चरण 6: क्यूड्रांट वेक्टर संग्रहण
यह नोड उत्पन्न एम्बेडिंग्स को आपके क्यूड्रांट संग्रह में प्रासंगिक मेटाडेटा के साथ संग्रहीत करता है।
चरण 7: अधिसूचना प्रणाली
अंतिम नोड आपके कॉन्फ़िगर किए गए वेबहुक के माध्यम से कार्यप्रवाह निष्पादन की स्थिति के साथ एक अधिसूचना भेजता है।
सामान्य समस्याओं का समाधान
n8n Node.js संस्करण समस्याएँ
यदि आप कोई त्रुटि देखते हैं जैसे:
आपका Node.js संस्करण X वर्तमान में n8n द्वारा समर्थित नहीं है। कृपया Node.js v18.17.0 (अनुशंसित), v20, या v22 का उपयोग करें!
इसे हल करने के लिए nvm स्थापित करें और सेटअप अनुभाग में वर्णित अनुसार एक संगत Node.js संस्करण का उपयोग करें।
Scrapeless API कनेक्शन समस्याएँ
- सत्यापित करें कि आपका API टोकन सही है
- चेक करें कि क्या आप API दर सीमाओं को पार कर रहे हैं
- सुनिश्चित करें कि URL स्वरूपण सही है
ओलामा एम्बेडिंग त्रुटियाँ
सामान्य त्रुटि: connect ECONNREFUSED ::1:11434
इसे हल करें:
- सुनिश्चित करें कि ओलामा चल रहा है: ollama serve
- सत्यापित करें कि मॉडल स्थापित है: ollama pull all-minilm
- लोकलहोस्ट के बजाय प्रत्यक्ष आईपी (127.0.0.1) का उपयोग करें
- जाँच करें कि क्या कोई अन्य प्रक्रिया पोर्ट 11434 का उपयोग कर रही है
उन्नत उपयोग परिदृश्य
एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करना
एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करने के लिए:
- URL को समानांतर में संसाधित करने के लिए एक बैच में विभाजन नोड का उपयोग करें
- प्रत्येक बैच के लिए उचित त्रुटि हैंडलिंग कॉन्फ़िगर करें
- परिणामों को मिलाने के लिए मर्ज नोड का उपयोग करें
अनुसूचित डेटा अपडेट
अपडेट की गई डेटा सुनिश्चित करने के लिए अपने वेक्टर डेटाबेस को निरंतर बनाए रखें:
- मैन्युअल ट्रिगर को अनुसूची नोड से बदलें
- अपडेट की आवृत्ति कॉन्फ़िगर करें (दैनिक, साप्ताहिक, आदि)
- केवल नए या परिवर्तित सामग्री को संसाधित करने के लिए If नोड का उपयोग करें
कस्टम निष्कर्षण टेम्पलेट
विभिन्न सामग्री प्रकारों के लिए क्लॉड के निष्कर्षण को अनुकूलित करें:
- समाचार लेखों, उत्पाद पृष्ठों, दस्तावेज़ों आदि के लिए विशिष्ट प्रॉम्प्ट बनाएं
- उपयुक्त प्रॉम्प्ट का चयन करने के लिए स्विच नोड का उपयोग करें
- निष्कर्षण टेम्पलेट्स को पर्यावरण चर के रूप में संग्रहीत करें
निष्कर्ष
यह n8n कार्यप्रवाह Scrapeless वेब स्क्रैपिंग, क्लॉड एआई निष्कर्षण, वेक्टर एम्बेडिंग, और क्यूड्रांट संग्रहण की ताकत को संयोजित करते हुए एक शक्तिशाली डेटा पाइपलाइन बनाता है। इन जटिल प्रक्रियाओं को स्वचालित करके, आप प्राप्त डेटा का उपयोग करने पर ध्यान केंद्रित कर सकते हैं बजाय इसके कि उसे प्राप्त करने की तकनीकी चुनौतियों पर।
n8n की मॉड्यूलर प्रकृति आपको इस कार्यप्रवाह को अतिरिक्त प्रसंस्करण चरणों, अन्य सिस्टम के साथ एकीकरण, या आपकी विशिष्ट आवश्यकताओं को पूरा करने के लिए कस्टम तार्किक लॉजिक के साथ विस्तारित करने की अनुमति देती है। चाहे आप एक एआई ज्ञान आधार बना रहे हों, प्रतिस्पर्धात्मक विश्लेषण कर रहे हों, या वेब सामग्री की निगरानी कर रहे हों, यह कार्यप्रवाह एक ठोस आधार प्रदान करता है।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।