न8न पर स्क्रैपलेस का उपयोग करके एआई पावर्ड पाइपलाइन कैसे बनाएं?

Emily Chen

Advanced Data Extraction Specialist

19-May-2025

परिचय

आज के डेटा-संचालित परिदृश्य में, संगठनों को वेब सामग्री को निकालने, संसाधित करने और विश्लेषण करने के लिए कुशल तरीके की आवश्यकता होती है। पारंपरिक वेब स्क्रैपिंग कई चुनौतियों का सामना करती है: एंटी-बॉट सुरक्षा, जटिल जावास्क्रिप्ट रेंडरिंग, और निरंतर रखरखाव की आवश्यकता। इसके अलावा, अव्यवस्थित वेब डेटा की व्याख्या करना जटिल प्रसंस्करण की मांग करता है।

यह मार्गदर्शिका दिखाती है कि n8n कार्यप्रवाह स्वचालन, Scrapeless वेब स्क्रैपिंग, बुद्धिमान निकासी के लिए Claude AI, और सेमांटिक स्टोरेज के लिए Qdrant वेक्टर डेटाबेस का उपयोग करके एक पूर्ण वेब डेटा पाइपलाइन कैसे बनानी है। चाहे आप ज्ञान आधार बना रहे हों, बाजार अनुसंधान कर रहे हों, या एक AI सहायक विकसित कर रहे हों, यह कार्यप्रवाह एक शक्तिशाली नींव प्रदान करता है।

आप क्या बनाएंगे

हमारा n8n कार्यप्रवाह कई अत्याधुनिक तकनीकों को जोड़ता है:

Scrapeless वेब अनलॉकर: जावास्क्रिप्ट रेंडरिंग के साथ उन्नत वेब स्क्रैपिंग
Claude 3.7 सोननेट: AI-संचालित डेटा निकासी और संरचना
Ollama एम्बेडिंग: स्थानीय वेक्टर एम्बेडिंग जेनरेशन
Qdrant वेक्टर डेटाबेस: सेमांटिक स्टोरेज और पुनर्प्राप्ति
अधिसूचना प्रणाली: वेबहुक के माध्यम से वास्तविक समय की निगरानी

यह एंड-टू-एंड पाइपलाइन अव्यवस्थित वेब डेटा को संरचित, वेक्टराइज्ड जानकारी में बदल देती है, जो सेमांटिक खोज और AI अनुप्रयोगों के लिए तैयार है।

स्थापना और सेटअप

n8n स्थापित करना

n8n को Node.js v18, v20, या v22 की आवश्यकता होती है। यदि आप संस्करण संगतता समस्याओं का सामना करते हैं:

Copy

# अपने Node.js संस्करण की जांच करें
node -v

# यदि आपके पास एक नई अप्रयुक्त संस्करण है (जैसे, v23+), तो nvm स्थापित करें
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# या Windows के लिए, NVM के Windows इंस्टॉलर का उपयोग करें

# एक संगत Node.js संस्करण स्थापित करें
nvm install 20

# स्थापित संस्करण का उपयोग करें
nvm use 20

# n8n को वैश्विक स्तर पर स्थापित करें
npm install n8n -g

# n8n चलाएँ
n8n

आपका n8n उदाहरण अब http://localhost:5678 पर उपलब्ध होना चाहिए।

Claude API सेट करना

Anthropic कंसोल पर जाएं और एक खाता बनाएं
API कुंजी अनुभाग पर जाएं
"कुंजी बनाएँ" पर क्लिक करें और उचित अनुमति सेट करें
n8n कार्यप्रवाह में उपयोग के लिए अपनी API कुंजी कॉपी करें (AI डेटा चेकर्स, Claude डेटा एक्स्ट्रैक्टर और Claude AI एजेंट में)

Scrapeless सेट करना

Scrapeless पर जाएं और एक खाता बनाएं
अपने डैशबोर्ड में यूनिवर्सल स्क्रैपिंग API अनुभाग पर जाएं
n8n कार्यप्रवाह में उपयोग के लिए अपना टोकन कॉपी करें

आप अपने Scrapeless वेब स्क्रैपिंग अनुरोध को इस curl कमांड का उपयोग करके कस्टमाइज़ कर सकते हैं और इसे n8n में HTTP अनुरोध नोड में सीधे आयात कर सकते हैं:

Copy

curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'

Docker के साथ Qdrant स्थापित करना

Copy

# Qdrant इमेज खींचें
docker pull qdrant/qdrant

# डेटा स्थिरता के साथ Qdrant कंटेनर चलाएँ
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

Qdrant चल रहा है या नहीं यह सत्यापित करें:

Copy

curl http://localhost:6333/healthz

Ollama स्थापित करना

macOS:

Copy

brew install ollama

Linux:

Copy

curl -fsSL https://ollama.com/install.sh | sh

Windows: Ollama की वेबसाइट से डाउनलोड और स्थापित करें।

Ollama सर्वर शुरू करें:

Copy

ollama serve

आवश्यक एम्बेडिंग मॉडल स्थापित करें:

Copy

ollama pull all-minilm

मॉडल स्थापना का सत्यापन करें:

Copy

ollama list

n8n कार्यप्रवाह सेट करना

कार्यप्रवाह का अवलोकन

हमारा कार्यप्रवाह इन मुख्य घटकों से बना है:

मैन्युअल/अनुसूचित ट्रिगर: कार्यप्रवाह शुरू करता है
संग्रह जांच: यह सत्यापित करता है कि Qdrant संग्रह मौजूद है
URL कॉन्फ़िगरेशन: लक्ष्य URL और पैरामीटर निर्धारित करता है
Scrapeless वेब अनुरोध: HTML सामग्री को निकालता है
Claude डेटा निकासी: डेटा को संसाधित और संरचना करता है
ओलामा एम्बेडिंग: वेक्टर एम्बेडिंग उत्पन्न करता है
क्यूड्रांट संग्रहण: वेक्टर और मेटाडेटा को सहेजता है
अधिसूचना: वेबहुक के माध्यम से स्थिति अपडेट भेजता है

चरण 1: कार्यप्रवाह ट्रिगर और संग्रह की जांच को कॉन्फ़िगर करें

एक मैन्युअल ट्रिगर नोड जोड़ने से शुरू करें, फिर यह जाँच करने के लिए एक HTTP अनुरोध नोड जोड़ें कि क्या आपका क्यूड्रांट संग्रह मौजूद है। आप इस प्रारंभिक चरण में संग्रह का नाम अनुकूलित कर सकते हैं - यदि संग्रह मौजूद नहीं है तो कार्यप्रवाह स्वचालित रूप से इसे बना देगा।

महत्वपूर्ण नोट: यदि आप डिफ़ॉल्ट "हैकर-न्यूज़" के बजाय एक अलग संग्रह नाम का उपयोग करना चाहते हैं, तो सुनिश्चित करें कि इसे क्यूड्रांट से संदर्भित सभी नोड्स में लगातार बदलें।

चरण 2: Scrapeless वेब अनुरोध को कॉन्फ़िगर करें

Scrapeless वेब स्क्रैपिंग के लिए एक HTTP अनुरोध नोड जोड़ें। नोड को पूर्व में प्रदान किए गए कर्ल आदेश का उपयोग करते हुए कॉन्फ़िगर करें, जिसमें YOUR_API_TOKEN को आपके वास्तविक Scrapeless API टोकन से बदलें।

आप Scrapeless वेब अनलॉकर पर अधिक उन्नत स्क्रैपिंग पैरामीटर कॉन्फ़िगर कर सकते हैं।

चरण 3: क्लॉड डेटा निष्कर्षण

HTML सामग्री को संसाधित करने के लिए एक नोड जोड़ें। आपको प्रमाणीकरण के लिए अपना क्लॉड API कुंजी प्रदान करनी होगी। क्लॉड निष्कर्षणकर्ता HTML सामग्री का विश्लेषण करता है और JSON प्रारूप में संरचित डेटा लौटाता है।

चरण 4: क्लॉड आउटपुट प्रारूपित करें

यह नोड क्लॉड के उत्तर को लेता है और इसे वेक्टराइजेशन के लिए प्रासंगिक जानकारी निकालकर और इसे उपयुक्त रूप से प्रारूपित करके तैयार करता है।

चरण 5: ओलामा एम्बेडिंग उत्पन्न करें

यह नोड संरचित पाठ को एम्बेडिंग उत्पन्न करने के लिए ओलामा को भेजता है। सुनिश्चित करें कि आपका ओलामा सर्वर चल रहा है और all-minilm मॉडल स्थापित है।

चरण 6: क्यूड्रांट वेक्टर संग्रहण

यह नोड उत्पन्न एम्बेडिंग्स को आपके क्यूड्रांट संग्रह में प्रासंगिक मेटाडेटा के साथ संग्रहीत करता है।

चरण 7: अधिसूचना प्रणाली

अंतिम नोड आपके कॉन्फ़िगर किए गए वेबहुक के माध्यम से कार्यप्रवाह निष्पादन की स्थिति के साथ एक अधिसूचना भेजता है।

सामान्य समस्याओं का समाधान

n8n Node.js संस्करण समस्याएँ

यदि आप कोई त्रुटि देखते हैं जैसे:

Copy

आपका Node.js संस्करण X वर्तमान में n8n द्वारा समर्थित नहीं है। कृपया Node.js v18.17.0 (अनुशंसित), v20, या v22 का उपयोग करें!

इसे हल करने के लिए nvm स्थापित करें और सेटअप अनुभाग में वर्णित अनुसार एक संगत Node.js संस्करण का उपयोग करें।

Scrapeless API कनेक्शन समस्याएँ

सत्यापित करें कि आपका API टोकन सही है
चेक करें कि क्या आप API दर सीमाओं को पार कर रहे हैं
सुनिश्चित करें कि URL स्वरूपण सही है

ओलामा एम्बेडिंग त्रुटियाँ

सामान्य त्रुटि: connect ECONNREFUSED ::1:11434

इसे हल करें:

सुनिश्चित करें कि ओलामा चल रहा है: ollama serve
सत्यापित करें कि मॉडल स्थापित है: ollama pull all-minilm
लोकलहोस्ट के बजाय प्रत्यक्ष आईपी (127.0.0.1) का उपयोग करें
जाँच करें कि क्या कोई अन्य प्रक्रिया पोर्ट 11434 का उपयोग कर रही है

उन्नत उपयोग परिदृश्य

एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करना

एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करने के लिए:

URL को समानांतर में संसाधित करने के लिए एक बैच में विभाजन नोड का उपयोग करें
प्रत्येक बैच के लिए उचित त्रुटि हैंडलिंग कॉन्फ़िगर करें
परिणामों को मिलाने के लिए मर्ज नोड का उपयोग करें

अनुसूचित डेटा अपडेट

अपडेट की गई डेटा सुनिश्चित करने के लिए अपने वेक्टर डेटाबेस को निरंतर बनाए रखें:

मैन्युअल ट्रिगर को अनुसूची नोड से बदलें
अपडेट की आवृत्ति कॉन्फ़िगर करें (दैनिक, साप्ताहिक, आदि)
केवल नए या परिवर्तित सामग्री को संसाधित करने के लिए If नोड का उपयोग करें

कस्टम निष्कर्षण टेम्पलेट

विभिन्न सामग्री प्रकारों के लिए क्लॉड के निष्कर्षण को अनुकूलित करें:

समाचार लेखों, उत्पाद पृष्ठों, दस्तावेज़ों आदि के लिए विशिष्ट प्रॉम्प्ट बनाएं
उपयुक्त प्रॉम्प्ट का चयन करने के लिए स्विच नोड का उपयोग करें
निष्कर्षण टेम्पलेट्स को पर्यावरण चर के रूप में संग्रहीत करें

निष्कर्ष

यह n8n कार्यप्रवाह Scrapeless वेब स्क्रैपिंग, क्लॉड एआई निष्कर्षण, वेक्टर एम्बेडिंग, और क्यूड्रांट संग्रहण की ताकत को संयोजित करते हुए एक शक्तिशाली डेटा पाइपलाइन बनाता है। इन जटिल प्रक्रियाओं को स्वचालित करके, आप प्राप्त डेटा का उपयोग करने पर ध्यान केंद्रित कर सकते हैं बजाय इसके कि उसे प्राप्त करने की तकनीकी चुनौतियों पर।

n8n की मॉड्यूलर प्रकृति आपको इस कार्यप्रवाह को अतिरिक्त प्रसंस्करण चरणों, अन्य सिस्टम के साथ एकीकरण, या आपकी विशिष्ट आवश्यकताओं को पूरा करने के लिए कस्टम तार्किक लॉजिक के साथ विस्तारित करने की अनुमति देती है। चाहे आप एक एआई ज्ञान आधार बना रहे हों, प्रतिस्पर्धात्मक विश्लेषण कर रहे हों, या वेब सामग्री की निगरानी कर रहे हों, यह कार्यप्रवाह एक ठोस आधार प्रदान करता है।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

स्क्रेपलेस MCP सर्वर आधिकारिक रूप से लाइव है! अपना अंतिम एआई-वेब कनेक्टर बनाएं

स्क्रेपलेस MCP सर्वर कैसे LLMs को वास्तविक समय में वेब ब्राउज़िंग और स्क्रेपिंग क्षमताएं देता है, यह जानें। सीखें कि कैसे AI एजेंट बनाएँ जो निर्बाध रूप से गतिशील वेब सामग्री को खोजें, निकालें और बातचीत करें।

Michael Lee

17-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए कुशल और अनुपालन शिपमेंट डेटा स्क्रैपिंग

स्क्रेपलेस USPS टूल का उपयोग करके ERP, OMS, और SaaS प्लेटफॉर्म के लिए दक्षता और अनुपालन के साथ संरचित, वास्तविक समय की ट्रैकिंग डेटा प्राप्त करना सीखें।

Emily Chen

02-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए प्रभावी और अनुपालन शिपमेंट डेटा स्क्रैपिंग

Scrapeless प्रस्तुत करते हैं: इंटेलिजेंट वेब स्क्रैपिंग टूलकिट आधिकारिक तौर पर लॉन्च हो गया है — डेटा स्क्रैपिंग के एक नए युग का अनुभव करें!

Scrapeless विश्व स्तर पर लॉन्च हो रहा है! यह एक उन्नत वेब स्क्रैपिंग समाधान है जो उद्यमों को गति, बुद्धिमत्ता और स्थिरता के साथ डेटा अधिग्रहण को सरल बनाने में मदद करने के लिए डिज़ाइन किया गया है।

Alex Johnson

06-Jan-2025

Scrapeless — डेटा स्क्रैपिंग का एक नया युग शुरू करें!

सूची