🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस कम्युनिटी और अपने नि: शुल्क परीक्षण का दावा करें!
वापस ब्लॉग पर

न8न पर स्क्रैपलेस का उपयोग करके एआई पावर्ड पाइपलाइन कैसे बनाएं?

Emily Chen
Emily Chen

Advanced Data Extraction Specialist

19-May-2025

परिचय

आज के डेटा-संचालित परिदृश्य में, संगठनों को वेब सामग्री को निकालने, संसाधित करने और विश्लेषण करने के लिए कुशल तरीके की आवश्यकता होती है। पारंपरिक वेब स्क्रैपिंग कई चुनौतियों का सामना करती है: एंटी-बॉट सुरक्षा, जटिल जावास्क्रिप्ट रेंडरिंग, और निरंतर रखरखाव की आवश्यकता। इसके अलावा, अव्यवस्थित वेब डेटा की व्याख्या करना जटिल प्रसंस्करण की मांग करता है।

यह मार्गदर्शिका दिखाती है कि n8n कार्यप्रवाह स्वचालन, Scrapeless वेब स्क्रैपिंग, बुद्धिमान निकासी के लिए Claude AI, और सेमांटिक स्टोरेज के लिए Qdrant वेक्टर डेटाबेस का उपयोग करके एक पूर्ण वेब डेटा पाइपलाइन कैसे बनानी है। चाहे आप ज्ञान आधार बना रहे हों, बाजार अनुसंधान कर रहे हों, या एक AI सहायक विकसित कर रहे हों, यह कार्यप्रवाह एक शक्तिशाली नींव प्रदान करता है।

आप क्या बनाएंगे

हमारा n8n कार्यप्रवाह कई अत्याधुनिक तकनीकों को जोड़ता है:

  • Scrapeless वेब अनलॉकर: जावास्क्रिप्ट रेंडरिंग के साथ उन्नत वेब स्क्रैपिंग
  • Claude 3.7 सोननेट: AI-संचालित डेटा निकासी और संरचना
  • Ollama एम्बेडिंग: स्थानीय वेक्टर एम्बेडिंग जेनरेशन
  • Qdrant वेक्टर डेटाबेस: सेमांटिक स्टोरेज और पुनर्प्राप्ति
  • अधिसूचना प्रणाली: वेबहुक के माध्यम से वास्तविक समय की निगरानी

यह एंड-टू-एंड पाइपलाइन अव्यवस्थित वेब डेटा को संरचित, वेक्टराइज्ड जानकारी में बदल देती है, जो सेमांटिक खोज और AI अनुप्रयोगों के लिए तैयार है।

स्थापना और सेटअप

n8n स्थापित करना

n8n को Node.js v18, v20, या v22 की आवश्यकता होती है। यदि आप संस्करण संगतता समस्याओं का सामना करते हैं:

Copy
# अपने Node.js संस्करण की जांच करें
node -v

# यदि आपके पास एक नई अप्रयुक्त संस्करण है (जैसे, v23+), तो nvm स्थापित करें
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# या Windows के लिए, NVM के Windows इंस्टॉलर का उपयोग करें

# एक संगत Node.js संस्करण स्थापित करें
nvm install 20

# स्थापित संस्करण का उपयोग करें
nvm use 20

# n8n को वैश्विक स्तर पर स्थापित करें
npm install n8n -g

# n8n चलाएँ
n8n

आपका n8n उदाहरण अब http://localhost:5678 पर उपलब्ध होना चाहिए।

Claude API सेट करना

  1. Anthropic कंसोल पर जाएं और एक खाता बनाएं
  2. API कुंजी अनुभाग पर जाएं
  3. "कुंजी बनाएँ" पर क्लिक करें और उचित अनुमति सेट करें
  4. n8n कार्यप्रवाह में उपयोग के लिए अपनी API कुंजी कॉपी करें (AI डेटा चेकर्स, Claude डेटा एक्स्ट्रैक्टर और Claude AI एजेंट में)

Scrapeless सेट करना

  1. Scrapeless पर जाएं और एक खाता बनाएं

  2. अपने डैशबोर्ड में यूनिवर्सल स्क्रैपिंग API अनुभाग पर जाएं

  3. n8n कार्यप्रवाह में उपयोग के लिए अपना टोकन कॉपी करें

आप अपने Scrapeless वेब स्क्रैपिंग अनुरोध को इस curl कमांड का उपयोग करके कस्टमाइज़ कर सकते हैं और इसे n8n में HTTP अनुरोध नोड में सीधे आयात कर सकते हैं:

Copy
curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'

Docker के साथ Qdrant स्थापित करना

Copy
# Qdrant इमेज खींचें
docker pull qdrant/qdrant

# डेटा स्थिरता के साथ Qdrant कंटेनर चलाएँ
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

Qdrant चल रहा है या नहीं यह सत्यापित करें:

Copy
curl http://localhost:6333/healthz

Ollama स्थापित करना

macOS:

Copy
brew install ollama

Linux:

Copy
curl -fsSL https://ollama.com/install.sh | sh

Windows: Ollama की वेबसाइट से डाउनलोड और स्थापित करें।

Ollama सर्वर शुरू करें:

Copy
ollama serve

आवश्यक एम्बेडिंग मॉडल स्थापित करें:

Copy
ollama pull all-minilm

मॉडल स्थापना का सत्यापन करें:

Copy
ollama list

n8n कार्यप्रवाह सेट करना

कार्यप्रवाह का अवलोकन

हमारा कार्यप्रवाह इन मुख्य घटकों से बना है:

  1. मैन्युअल/अनुसूचित ट्रिगर: कार्यप्रवाह शुरू करता है
  2. संग्रह जांच: यह सत्यापित करता है कि Qdrant संग्रह मौजूद है
  3. URL कॉन्फ़िगरेशन: लक्ष्य URL और पैरामीटर निर्धारित करता है
  4. Scrapeless वेब अनुरोध: HTML सामग्री को निकालता है
  5. Claude डेटा निकासी: डेटा को संसाधित और संरचना करता है
  6. ओलामा एम्बेडिंग: वेक्टर एम्बेडिंग उत्पन्न करता है
  7. क्यूड्रांट संग्रहण: वेक्टर और मेटाडेटा को सहेजता है
  8. अधिसूचना: वेबहुक के माध्यम से स्थिति अपडेट भेजता है

चरण 1: कार्यप्रवाह ट्रिगर और संग्रह की जांच को कॉन्फ़िगर करें

एक मैन्युअल ट्रिगर नोड जोड़ने से शुरू करें, फिर यह जाँच करने के लिए एक HTTP अनुरोध नोड जोड़ें कि क्या आपका क्यूड्रांट संग्रह मौजूद है। आप इस प्रारंभिक चरण में संग्रह का नाम अनुकूलित कर सकते हैं - यदि संग्रह मौजूद नहीं है तो कार्यप्रवाह स्वचालित रूप से इसे बना देगा।

महत्वपूर्ण नोट: यदि आप डिफ़ॉल्ट "हैकर-न्यूज़" के बजाय एक अलग संग्रह नाम का उपयोग करना चाहते हैं, तो सुनिश्चित करें कि इसे क्यूड्रांट से संदर्भित सभी नोड्स में लगातार बदलें।

चरण 2: Scrapeless वेब अनुरोध को कॉन्फ़िगर करें

Scrapeless वेब स्क्रैपिंग के लिए एक HTTP अनुरोध नोड जोड़ें। नोड को पूर्व में प्रदान किए गए कर्ल आदेश का उपयोग करते हुए कॉन्फ़िगर करें, जिसमें YOUR_API_TOKEN को आपके वास्तविक Scrapeless API टोकन से बदलें।

आप Scrapeless वेब अनलॉकर पर अधिक उन्नत स्क्रैपिंग पैरामीटर कॉन्फ़िगर कर सकते हैं।

चरण 3: क्लॉड डेटा निष्कर्षण

HTML सामग्री को संसाधित करने के लिए एक नोड जोड़ें। आपको प्रमाणीकरण के लिए अपना क्लॉड API कुंजी प्रदान करनी होगी। क्लॉड निष्कर्षणकर्ता HTML सामग्री का विश्लेषण करता है और JSON प्रारूप में संरचित डेटा लौटाता है।

चरण 4: क्लॉड आउटपुट प्रारूपित करें

यह नोड क्लॉड के उत्तर को लेता है और इसे वेक्टराइजेशन के लिए प्रासंगिक जानकारी निकालकर और इसे उपयुक्त रूप से प्रारूपित करके तैयार करता है।

चरण 5: ओलामा एम्बेडिंग उत्पन्न करें

यह नोड संरचित पाठ को एम्बेडिंग उत्पन्न करने के लिए ओलामा को भेजता है। सुनिश्चित करें कि आपका ओलामा सर्वर चल रहा है और all-minilm मॉडल स्थापित है।

चरण 6: क्यूड्रांट वेक्टर संग्रहण

यह नोड उत्पन्न एम्बेडिंग्स को आपके क्यूड्रांट संग्रह में प्रासंगिक मेटाडेटा के साथ संग्रहीत करता है।

चरण 7: अधिसूचना प्रणाली

अंतिम नोड आपके कॉन्फ़िगर किए गए वेबहुक के माध्यम से कार्यप्रवाह निष्पादन की स्थिति के साथ एक अधिसूचना भेजता है।

सामान्य समस्याओं का समाधान

n8n Node.js संस्करण समस्याएँ

यदि आप कोई त्रुटि देखते हैं जैसे:

Copy
आपका Node.js संस्करण X वर्तमान में n8n द्वारा समर्थित नहीं है। कृपया Node.js v18.17.0 (अनुशंसित), v20, या v22 का उपयोग करें!

इसे हल करने के लिए nvm स्थापित करें और सेटअप अनुभाग में वर्णित अनुसार एक संगत Node.js संस्करण का उपयोग करें।

Scrapeless API कनेक्शन समस्याएँ

  • सत्यापित करें कि आपका API टोकन सही है
  • चेक करें कि क्या आप API दर सीमाओं को पार कर रहे हैं
  • सुनिश्चित करें कि URL स्वरूपण सही है

ओलामा एम्बेडिंग त्रुटियाँ

सामान्य त्रुटि: connect ECONNREFUSED ::1:11434

इसे हल करें:

  • सुनिश्चित करें कि ओलामा चल रहा है: ollama serve
  • सत्यापित करें कि मॉडल स्थापित है: ollama pull all-minilm
  • लोकलहोस्ट के बजाय प्रत्यक्ष आईपी (127.0.0.1) का उपयोग करें
  • जाँच करें कि क्या कोई अन्य प्रक्रिया पोर्ट 11434 का उपयोग कर रही है

उन्नत उपयोग परिदृश्य

एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करना

एक कार्यप्रवाह निष्पादन में कई URL को संसाधित करने के लिए:

  1. URL को समानांतर में संसाधित करने के लिए एक बैच में विभाजन नोड का उपयोग करें
  2. प्रत्येक बैच के लिए उचित त्रुटि हैंडलिंग कॉन्फ़िगर करें
  3. परिणामों को मिलाने के लिए मर्ज नोड का उपयोग करें

अनुसूचित डेटा अपडेट

अपडेट की गई डेटा सुनिश्चित करने के लिए अपने वेक्टर डेटाबेस को निरंतर बनाए रखें:

  1. मैन्युअल ट्रिगर को अनुसूची नोड से बदलें
  2. अपडेट की आवृत्ति कॉन्फ़िगर करें (दैनिक, साप्ताहिक, आदि)
  3. केवल नए या परिवर्तित सामग्री को संसाधित करने के लिए If नोड का उपयोग करें

कस्टम निष्कर्षण टेम्पलेट

विभिन्न सामग्री प्रकारों के लिए क्लॉड के निष्कर्षण को अनुकूलित करें:

  1. समाचार लेखों, उत्पाद पृष्ठों, दस्तावेज़ों आदि के लिए विशिष्ट प्रॉम्प्ट बनाएं
  2. उपयुक्त प्रॉम्प्ट का चयन करने के लिए स्विच नोड का उपयोग करें
  3. निष्कर्षण टेम्पलेट्स को पर्यावरण चर के रूप में संग्रहीत करें

निष्कर्ष

यह n8n कार्यप्रवाह Scrapeless वेब स्क्रैपिंग, क्लॉड एआई निष्कर्षण, वेक्टर एम्बेडिंग, और क्यूड्रांट संग्रहण की ताकत को संयोजित करते हुए एक शक्तिशाली डेटा पाइपलाइन बनाता है। इन जटिल प्रक्रियाओं को स्वचालित करके, आप प्राप्त डेटा का उपयोग करने पर ध्यान केंद्रित कर सकते हैं बजाय इसके कि उसे प्राप्त करने की तकनीकी चुनौतियों पर।

n8n की मॉड्यूलर प्रकृति आपको इस कार्यप्रवाह को अतिरिक्त प्रसंस्करण चरणों, अन्य सिस्टम के साथ एकीकरण, या आपकी विशिष्ट आवश्यकताओं को पूरा करने के लिए कस्टम तार्किक लॉजिक के साथ विस्तारित करने की अनुमति देती है। चाहे आप एक एआई ज्ञान आधार बना रहे हों, प्रतिस्पर्धात्मक विश्लेषण कर रहे हों, या वेब सामग्री की निगरानी कर रहे हों, यह कार्यप्रवाह एक ठोस आधार प्रदान करता है।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची