19-May-2025

Scrapeless x N8N

n8n, Scrapeless, और Claude के साथ एक AI-संचालित वेब डेटा पाइपलाइन बनाना

कोई क्रेडिट कार्ड की आवश्यकता नहीं है

n8n, Scrapeless, और Claude के साथ एक AI-संचालित वेब डेटा पाइपलाइन का निर्माण

परिचय

आजकल के डेटा-प्रेरित परिदृश्य में, संगठनों को वेब सामग्री को निकालने, संसाधित करने और विश्लेषण करने के लिए प्रभावी तरीकों की आवश्यकता होती है। पारंपरिक वेब स्क्रैपिंग कई चुनौतियों का सामना करती है: एंटी-बॉट सुरक्षा, जटिल जावास्क्रिप्ट रेंडरिंग, और निरंतर रखरखाव की आवश्यकता। इसके अलावा, असंरचित वेब डेटा का अर्थ निकालना उन्नत प्रसंस्करण की आवश्यकता होती है।

यह मार्गदर्शिका n8n वर्कफ़्लो स्वचालन, स्क्रैपलेस वेब स्क्रैपिंग, बुद्धिमान निकासी के लिए क्लॉड एआई, और अर्ध-संरचनात्मक भंडारण के लिए क्यूड्रांट वектор डेटाबेस का उपयोग करके एक पूर्ण वेब डेटा पाइपलाइन बनाने का प्रदर्शन करती है। चाहे आप ज्ञान आधार बना रहे हों, बाजार अनुसंधान कर रहे हों, या एक एआई सहायक विकसित कर रहे हों, यह वर्कफ़्लो एक मजबूत आधार प्रदान करता है।

आप क्या बनाएंगे

हमारा n8n वर्कफ़्लो कई अत्याधुनिक तकनीकों को जोड़ता है:

स्क्रैपलेस वेब अनलॉकर: जावास्क्रिप्ट रेंडरिंग के साथ उन्नत वेब स्क्रैपिंग
क्लॉड 3.7 सोननेट: एआई-संचालित डेटा निकासी और संरचना
ओलामा एंबेडिंग: स्थानीय वектор एंबेडिंग पीढ़ी
क्यूड्रांट वектор डेटाबेस: अर्ध-संरचनात्मक भंडारण और पुनर्प्राप्ति
सूचना प्रणाली: वेबहुक के माध्यम से वास्तविक समय की निगरानी

यह एंड-टु-एंड पाइपलाइन अव्यवस्थित वेब डेटा को संरचित, वेक्टराइज्ड सूचना में बदल देती है जो अर्ध-संरचनात्मक खोज और एआई अनुप्रयोगों के लिए तैयार होती है।
n8n, Scrapeless, और Claude के साथ AI-संचालित वेब डेटा पाइपलाइन बनाना

स्थापना और सेटअप

n8n स्थापित करना

n8n को Node.js v18, v20, या v22 की आवश्यकता होती है। यदि आपको संस्करण संगतता मुद्दों का सामना करना पड़ता है:

Copy

# अपने Node.js संस्करण की जांच करें
node -v

# यदि आपके पास एक नया असमर्थित संस्करण है (जैसे, v23+), तो nvm स्थापित करें
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# या Windows के लिए, NVM for Windows इंस्टॉलर का उपयोग करें

# एक उपयुक्त Node.js संस्करण स्थापित करें
nvm install 20

# स्थापित संस्करण का उपयोग करें
nvm use 20

# n8n को वैश्विक रूप से स्थापित करें
npm install n8n -g

# n8n चलाएं
n8n

आपका n8n उदाहरण अब http://localhost:5678 पर उपलब्ध होना चाहिए।

क्लॉड एपीआई सेट करना

एंथ्रोपिक कंसोल पर जाएं और एक खाता बनाएं
एपीआई कुंजी अनुभाग में जाएं
"की बनाएं" पर क्लिक करें और उपयुक्त अनुमतियों को सेट करें
n8n वर्कफ़्लो में उपयोग के लिए अपनी एपीआई कुंजी कॉपी करें (AI डेटा चेकर्स, क्लॉड डेटा निष्कासीकर्ता और क्लॉड एआई एजेंट में)

स्क्रैपलेस सेट करना

स्क्रैपलेस पर जाएं और एक खाता बनाएं
अपने डैशबोर्ड में यूनिवर्सल स्क्रैपिंग एपीआई अनुभाग में जाएं https://app.scrapeless.com/exemple/overview

n8n वर्कफ़्लो में उपयोग के लिए अपना टोकन कॉपी करें

n8n वर्कफ़्लो में उपयोग के लिए अपना टोकन कॉपी करें

आप इस कर्ल कमांड का उपयोग करके अपने स्क्रैपलेस वेब स्क्रैपिंग अनुरोध को अनुकूलित कर सकते हैं और इसे n8n में HTTP अनुरोध नोड में सीधे आयात कर सकते हैं:

Copy

curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'

आप अपने स्क्रैपलेस वेब स्क्रैपिंग अनुरोध को अनुकूलित कर सकते हैं

Qdrant को Docker के साथ स्थापित करना

Copy

# Qdrant इमेज खींचें
docker pull qdrant/qdrant

# डेटा स्थिरता के साथ Qdrant कंटेनर चलाएं
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

सुनिश्चित करें कि Qdrant चल रहा है:

Copy

curl http://localhost:6333/healthz

ओलामा स्थापित करना

macOS:

Copy

brew install ollama

लिनक्स:

Copy

curl -fsSL https://ollama.com/install.sh | sh

Windows: ओलामा की वेबसाइट से डाउनलोड और स्थापना करें।

ओलामा सर्वर शुरू करें:

Copy

ollama serve

आवश्यक एम्बेडिंग मॉडल स्थापित करें:

Copy

ollama pull all-minilm

मॉडल स्थापना की पुष्टि करें:

Copy

ollama list

n8n वर्कफ़्लो सेट करना

वर्कफ़्लो अवलोकन

हमारा वर्कफ़्लो इन प्रमुख घटकों से मिलकर बना है:

मैनुअल/अनुसूचित ट्रिगर: वर्कफ़्लो शुरू करता है
संग्रह जाँच: यह सत्यापित करता है कि Qdrant संग्रह मौजूद है
URL कॉन्फ़िगरेशन: लक्ष्य URL और पैरामीटर सेट करता है
स्क्रैपलेस वेब अनुरोध: HTML सामग्री निकालता है
क्लॉड डेटा निकासी: डेटा को संसाधित और संरचित करता है
ओल्लामा एम्बेडिंग्स: वेक्टर एम्बेडिंग उत्पन्न करता है
क्यूड्रांट स्टोरेज: वेक्टर और मेटाडेटा सहेजता है
अधिसूचना: वेबहुक के माध्यम से स्थिति अपडेट भेजता है

चरण 1: वर्कफ़्लो ट्रिगर और संग्रह जांच कॉन्फ़िगर करें

एक मैनुअल ट्रिगर नोड जोड़कर शुरू करें, फिर अपनी क्यूड्रांट संग्रह की जांच के लिए एक HTTP अनुरोध नोड जोड़ें। आप इस प्रारंभिक चरण में संग्रह का नाम कस्टमाइज़ कर सकते हैं - यदि यह मौजूद नहीं है तो वर्कफ़्लो स्वचालित रूप से संग्रह बनाएगा।

महत्वपूर्ण नोट: यदि आप डिफ़ॉल्ट "हैकर-न्यूज़" से अलग संग्रह नाम का उपयोग करना चाहते हैं, तो सुनिश्चित करें कि इसे क्यूड्रांट का संदर्भ लेने वाले सभी नोड्स में एकसार बदला जाए।

चरण 2: स्क्रेपलेस वेब अनुरोध कॉन्फ़िगर करें

स्क्रेपलेस वेब स्क्रैपिंग के लिए एक HTTP अनुरोध नोड जोड़ें। नोड को पूर्व में दिए गए कर्ल कमांड का उपयोग करते हुए कॉन्फ़िगर करें, YOUR_API_TOKEN को अपने वास्तविक स्क्रेपलेस API टोकन से बदलें।

आप स्क्रेपलेस वेब अनलॉकर पर अधिक उन्नत स्क्रैपिंग पैरामीटर कॉन्फ़िगर कर सकते हैं।

चरण 3: क्लॉड डेटा निकासी

क्लॉड का उपयोग करके एचटीएमएल सामग्री को प्रोसेस करने के लिए एक नोड जोड़ें। आपको प्रमाणीकरण के लिए अपना क्लॉड API कुंजी प्रदान करने की आवश्यकता होगी। क्लॉड एक्सट्रैक्टर एचटीएमएल सामग्री का विश्लेषण करता है और JSON प्रारूप में संरचित डेटा लौटाता है।

चरण 4: क्लॉड आउटपुट फ़ॉर्मेट करें

यह नोड क्लॉड की प्रतिक्रिया लेता है और इसे वेक्टराइजेशन के लिए प्रासंगिक जानकारी को उत्खनन करके और इसे उपयुक्त रूप से फ़ॉर्मेट करके तैयार करता है।

चरण 5: ओल्लामा एम्बेडिंग उत्पन्न करें

यह नोड संरचित पाठ को ओल्लामा के लिए एम्बेडिंग उत्पन्न करने के लिए भेजता है। सुनिश्चित करें कि आपका ओल्लामा सर्वर चल रहा है और सभी-मिनिमलम मॉडल स्थापित है।

चरण 6: क्यूड्रांट वेक्टर स्टोरेज

यह नोड उत्पन्न एम्बेडिंग को आपकी क्यूड्रांट संग्रह में प्रासंगिक मेटाडेटा के साथ सहेजता है।

चरण 7: अधिसूचना प्रणाली

आखिरी नोड आपके कॉन्फ़िगर किए गए वेबहुक के माध्यम से वर्कफ़्लो निष्पादन की स्थिति के साथ एक अधिसूचना भेजता है।

सामान्य मुद्दों का निवारण

n8n Node.js संस्करण समस्याएँ

यदि आप ऐसा त्रुटि संदेश देखते हैं:

Copy

आपका Node.js संस्करण X वर्तमान में n8n द्वारा समर्थित नहीं है।  
कृपया Node.js v18.17.0 (सिफारिश की गई), v20, या v22 का उपयोग करें!

इसे ठीक करने के लिए nvm स्थापित करें और सेटअप अनुभाग में वर्णित अनुसार संगत Node.js संस्करण का उपयोग करें।

स्क्रेपलेस API कनेक्शन समस्याएँ

सुनिश्चित करें कि आपका API टोकन सही है
जांचें कि क्या आप API दर सीमाओं को हिट कर रहे हैं
उचित URL प्रारूपण सुनिश्चित करें

ओल्लामा एम्बेडिंग त्रुटियाँ

सामान्य त्रुटि: कनेक्ट ECONNREFUSED ::1:11434

ठीक करें:

सुनिश्चित करें कि ओल्लामा चल रहा है: ओल्लामा सर्व
सुनिश्चित करें कि मॉडल स्थापित है: ओल्लामा पुल सभी-minilm
लोकलहोस्ट के बजाय सीधे IP (127.0.0.1) का उपयोग करें
जांचें कि क्या कोई अन्य प्रक्रिया पोर्ट 11434 का उपयोग कर रही है

उन्नत उपयोग परिदृश्य

कई URL का बैच प्रोसेसिंग

एक वर्कफ़्लो निष्पादन में कई URL को प्रोसेस करने के लिए:

URL को समानांतर में प्रोसेस करने के लिए एक विभाजन बैचों में नोड का उपयोग करें
प्रत्येक बैच के लिए उचित त्रुटि हैंडलिंग कॉन्फ़िगर करें
परिणामों को एकत्रित करने के लिए एक मर्ज नोड का उपयोग करें

अनुसूचित डेटा अपडेट

अपनी वेक्टर डेटाबेस को वर्तमान रखें, अनुसूचित अपडेट के साथ:

मैनुअल ट्रिगर को शेड्यूल नोड के साथ बदलें
अपडेट आवृत्ति कॉन्फ़िगर करें (दैनिक, साप्ताहिक, आदि)
केवल नए या परिवर्तित सामग्री को प्रोसेस करने के लिए "यदि" नोड का उपयोग करें

कस्टम एक्सट्रैक्शन टेम्पलेट

क्लॉड की निकासी को विभिन्न सामग्री प्रकारों के लिए अनुकूलित करें:

समाचार लेखों, उत्पाद पृष्ठों, प्रलेखन आदि के लिए विशिष्ट प्रॉम्प्ट बनाएं
उपयुक्त प्रॉम्प्ट का चयन करने के लिए स्विच नोड का उपयोग करें
निकासी टेम्पलेट को पर्यावरण चर के रूप में सहेजें

निष्कर्ष

यह n8n वर्कफ़्लो स्क्रेपलेस वेब स्क्रैपिंग, क्लॉड AI एक्सट्रैक्शन, वेक्टर एम्बेडिंग और क्यूड्रांट स्टोरेज की ताकतों को जोड़ने वाला एक शक्तिशाली डेटा पाइपलाइन बनाता है। इन जटिल प्रक्रियाओं को स्वचालित करके, आप निकाले गए डेटा का उपयोग करने पर ध्यान केंद्रित कर सकते हैं न कि इसे प्राप्त करने की तकनीकी चुनौतियों पर।

n8n की मॉड्यूलर प्रकृति आपको इस वर्कफ़्लो को अतिरिक्त प्रसंस्करण चरणों, अन्य सिस्टम के साथ एकीकृत करने, या आपकी विशिष्ट जरूरतों को पूरा करने के लिए कस्टम लॉजिक के साथ विस्तारित करने की अनुमति देती है। चाहे आप AI ज्ञान आधार बना रहे हों, प्रतिस्पर्धात्मक विश्लेषण कर रहे हों, या वेब सामग्री की निगरानी कर रहे हों, यह वर्कफ़्लो एक ठोस आधार प्रदान करता है।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

इस पृष्ठ पर