स्क्रैपलेस और पाइनकोन डेटाबेस का उपयोग करके एआई समर्थित ब्लॉग लेखक

Alex Johnson

Senior Web Scraping Engineer

17-Jul-2025

आप एक अनुभवी सामग्री निर्माता होना चाहिए। स्टार्टअप टीम के रूप में, उत्पाद की दिन-प्रतिदिन अपडेट की गई सामग्री बहुत समृद्ध है। आपको न केवल वेबसाइट ट्रैफ़िक को तेजी से बढ़ाने के लिए बड़ी संख्या में ड्रेनेज ब्लॉग प्रस्तुत करने की आवश्यकता है, बल्कि प्रत्येक सप्ताह उत्पाद अद्यतन प्रचार के लिए 2-3 ब्लॉग भी तैयार करने की आवश्यकता है।

भुगतान वाले विज्ञापनों के बोली बजट को बढ़ाने के लिए अधिक धन खर्च करने की तुलना में, सामग्री विपणन के अभी भी अपरिवर्तनीय लाभ हैं: सामग्री की विस्तृत श्रृंखला, ग्राहकों को अधिग्रहण परीक्षण की कम लागत, उच्च आउटपुट दक्षता, तुलनात्मक रूप से कम ऊर्जा निवेश, समृद्ध क्षेत्र अनुभव ज्ञान का आधार आदि।

हालांकि, बहुत सारी सामग्री विपणन के परिणाम क्या हैं?

दुर्भाग्य से, कई लेख Google खोज के 10 वें पृष्ठ पर गहराई से दबे हुए हैं।

क्या "कम-ट्रैफ़िक" लेखों के मजबूत प्रभाव से बचने का कोई अच्छा तरीका है?
क्या आपने कभी एक स्व-संसाधित SEO लेखक बनाने की इच्छा व्यक्त की है जो शीर्ष प्रदर्शन वाले ब्लॉगों का ज्ञान क्लोन करता है और बड़े पैमाने पर ताजा सामग्री उत्पन्न करता है?

इस गाइड में, हम आपको n8n, Scrapeless, Gemini (आप चाहें तो इससे अन्य जैसे Claude/OpenRouter भी चुन सकते हैं), और Pinecone का उपयोग करके पूरी तरह से स्वचालित SEO सामग्री उत्पन्न करने के कार्यप्रवाह के निर्माण के लिए मार्गदर्शन करेंगे।
यह कार्यप्रवाह डेटा-आधारित उच्च-ट्रैफिक ब्लॉगों पर आधारित सामग्री एकत्र करने, संग्रहीत करने और उत्पन्न करने के लिए एक पुनर्प्राप्ति-वर्धित पीढ़ी (RAG) प्रणाली का उपयोग करता है।

YouTube ट्यूटोरियल: https://www.youtube.com/watch?v=MmitAOjyrT4

यह कार्यप्रवाह क्या करता है?

यह कार्यप्रवाह चार चरणों में शामिल होगा:

भाग 1: Scrapeless Crawl को कॉल करें ताकि लक्षित वेबसाइट के सभी उप-पृष्ठों को क्रॉल किया जा सके, और Scrape का उपयोग करके प्रत्येक पृष्ठ की पूरी सामग्री का गहराई से विश्लेषण करें।
भाग 2: क्रॉल की गई डेटा को Pinecone वेक्टर स्टोर में सहेजें।
भाग 3: Scrapeless के Google Search नोड का उपयोग करके लक्षित विषय या कीवर्ड के मूल्य का पूरी तरह से विश्लेषण करें।
भाग 4: Gemini को निर्देश दें, और RAG के माध्यम से तैयार किए गए डेटाबेस से संदर्भ सामग्री का एकीकरण करें, और लक्षित ब्लॉग उत्पन्न करें या प्रश्नों का उत्तर दें।

यदि आपने Scrapeless के बारे में नहीं सुना है, तो यह एक प्रमुख इन्फ्रास्ट्रक्चर कंपनी है जो AI एजेंटों, स्वचालन कार्यप्रवाहों और वेब क्रॉलिंग को शक्ति प्रदान करने पर ध्यान केंद्रित करती है। Scrapeless उन आवश्यक निर्माण ब्लॉकों को प्रदान करता है जो डेवलपर्स और व्यवसायों को कुशलता से बुद्धिमान, स्वायत्त प्रणालियाँ बनाने में सक्षम बनाते हैं।

इसके मूल में, Scrapeless ब्राउज़र-स्तरीय उपकरण और प्रोटोकॉल-आधारित APIs प्रदान करता है - जैसे कि हेडलेस क्लाउड ब्राउज़र, डीप सर्प API, और यूनिवर्सल क्रॉलिंग APIs - जो AI एजेंटों और स्वचालन प्लेटफार्मों के लिए एकीकृत, मॉड्यूलर आधार के रूप में कार्य करते हैं।

यह वास्तव में AI अनुप्रयोगों के लिए बनाया गया है क्योंकि AI मॉडल अक्सर कई चीजों के साथ अद्यतित नहीं होते हैं, चाहे वह वर्तमान घटनाएँ हों या नई प्रौद्योगिकियाँ

n8n के अलावा, इसे API के माध्यम से भी कॉल किया जा सकता है, और मेक जैसे मुख्यधारा प्लेटफार्मों पर नोड्स हैं:

आप इसे सीधे आधिकारिक वेबसाइट पर भी उपयोग कर सकते हैं।

n8n में Scrapeless का उपयोग करने के लिए:

सेटिंग > सामुदायिक नोड्स पर जाएं
n8n-nodes-scrapeless को खोजें और इसे स्थापित करें

हमें सबसे पहले n8n पर Scrapeless सामुदायिक नोड स्थापित करने की आवश्यकता है:

क्रेडेंशियल कनेक्शन

Scrapeless API कुंजी

इस ट्यूटोरियल में, हम Scrapeless सेवा का उपयोग करेंगे। कृपया सुनिश्चित करें कि आपने पंजीकरण कराया है और API कुंजी प्राप्त की है।

Scrapeless वेबसाइट पर साइन अप करें ताकि आप अपनी API कुंजी प्राप्त करें और मुफ्त परीक्षण का दावा करें।
इसके बाद, आप Scrapeless नोड खोल सकते हैं, क्रेडेंशियल्स अनुभाग में अपनी API कुंजी पेस्ट कर सकते हैं, और इसे कनेक्ट कर सकते हैं।

Pinecone इंडेक्स और API कुंजी

डेटा को क्रॉल करने के बाद, हम इसे एकीकृत और संसाधित करेंगे और सभी डेटा को Pinecone डेटाबेस में इकट्ठा करेंगे। हमें पहले से Pinecone API कुंजी और इंडेक्स तैयार करना होगा।

API कुंजी बनाएं

लॉगिन करने के बाद, API कुंजी पर क्लिक करें → API कुंजी बनाएं पर क्लिक करें → अपनी API कुंजी का नाम भरें → कुंजी बनाएं। अब, आप इसे n8n क्रेडेंशियल्स में सेट कर सकते हैं।

⚠️ निर्माण पूरा होने के बाद, कृपया अपनी API कुंजी कॉपी करें और सहेजें। डेटा सुरक्षा के लिए, Pinecone बनाई गई API कुंजी को फिर से प्रदर्शित नहीं करेगा।

इंडेक्स बनाएं
Here is the translation of the provided text into Hindi:

इंडेक्स क्लिक करें और निर्माण पृष्ठ पर जाएं। सेट करें इंडेक्स नाम → चुनें कॉन्फ़िगरेशन के लिए मॉडल → उचित आयाम सेट करें → इंडेक्स बनाएं।
2 सामान्य आयाम सेटिंग्स:

Google Gemini Embedding-001 → 768 आयाम
OpenAI का टेक्स्ट-एम्बेडिंग-3-स्मॉल → 1536 आयाम

चरण 1: ज्ञान आधार के लिए वेबसाइटों को स्क्रैप और क्रॉल करें

पहला चरण सीधे सभी ब्लॉग सामग्री को एकत्रित करना है। बड़े क्षेत्र से सामग्री को क्रॉल करना हमारे एआई एजेंट को सभी क्षेत्रों से डेटा स्रोत प्राप्त करने की अनुमति देता है, ताकि अंतिम आउटपुट लेखों की गुणवत्ता सुनिश्चित हो सके।

स्क्रैपलेस नोड लेख पृष्ठ को क्रॉल करता है और सभी ब्लॉग पोस्ट URLs एकत्र करता है।
फिर यह हर URL के माध्यम से लूप करता है, ब्लॉग सामग्री को स्क्रैप करता है और डेटा को व्यवस्थित करता है।
प्रत्येक ब्लॉग पोस्ट को आपके एआई मॉडल का उपयोग करके एंबेड किया जाता है और पाइनकॉन में संग्रहीत किया जाता है।
हमारे मामले में, हम सिर्फ कुछ मिनटों में 25 ब्लॉग पोस्ट को स्क्रैप करते हैं - बिना एक अंगुली उठाए।

स्क्रैपलेस क्रॉल नोड

इस नोड का उपयोग लक्षित ब्लॉग वेबसाइट की सभी सामग्री को क्रॉल करने के लिए किया जाता है जिसमें मेटा डेटा, उप-पृष्ठ की सामग्री और इसे मार्कडाउन प्रारूप में निर्यात करना शामिल है। यह बड़े पैमाने पर सामग्री क्रॉलिंग है जिसे हम मैनुअल कोडिंग के माध्यम से जल्दी नहीं कर सकते।

कॉन्फ़िगरेशन:

अपने स्क्रैपलेस एपीआई कुंजी को कनेक्ट करें
संसाधन: क्रॉलर
संचालन: क्रॉल
अपने लक्षित स्क्रैपिंग वेबसाइट का इनपुट दें। यहाँ हम https://www.scrapeless.com/hi/blog को संदर्भ के रूप में उपयोग करते हैं।

कोड नोड

ब्लॉग डेटा प्राप्त करने के बाद, हमें डेटा को पार्स करना और उसमें से आवश्यक संरचित जानकारी निकालनी है।

नीचे वह कोड है जिसका मैंने इस्तेमाल किया। आप इसे सीधे संदर्भित कर सकते हैं:

JavaScript Copy

return items.map(item => {
  const md = $input.first().json['0'].markdown; 

  if (typeof md !== 'string') {
    console.warn('मार्कडाउन सामग्री एक स्ट्रिंग नहीं है:', md);
    return {
      json: {
        title: '',
        mainContent: '',
        extractedLinks: [],
        error: 'मार्कडाउन सामग्री एक स्ट्रिंग नहीं है'
      }
    };
  }

  const articleTitleMatch = md.match(/^#\s*(.*)/m);
  const title = articleTitleMatch ? articleTitleMatch[1].trim() : 'कोई शीर्षक नहीं मिला';

  let mainContent = md.replace(/^#\s*.*(\r?\n)+/, '').trim();

  const extractedLinks = [];
  const linkRegex = /\[([^\]]+)\]\((https?:\/\/[^\s#)]+)\)/g; 
  let match;
  while ((match = linkRegex.exec(mainContent))) {
    extractedLinks.push({
      text: match[1].trim(),
      url: match[2].trim(),
    });
  }

  return {
    json: {
      title,
      mainContent,
      extractedLinks,
    },
  };
});

नोड: अलग करें

अलग नोड हमें साफ किए गए डेटा को एकीकृत करने और हमें आवश्यक URLs और पाठ सामग्री निकालने में मदद कर सकता है।

आइटम पर लूप + स्क्रैपलेस स्क्रेप

आइटम पर लूप

स्क्रैपलेस के स्क्रेप के साथ लूप ओवर टाइम नोड का उपयोग करके बार-बार क्रॉलिंग कार्य करें, और पहले प्राप्त सभी आइटमों का गहन विश्लेषण करें।

स्क्रैपलेस स्क्रेप

स्क्रैप नोड का उपयोग पूर्व में प्राप्त URL में समाहित सभी सामग्री को क्रॉल करने के लिए किया जाता है। इस तरह, प्रत्येक URL को गहराई से विश्लेषण किया जा सकता है। मार्कडाउन प्रारूप में लौटाया गया और मेटाडेटा और अन्य जानकारी एकीकृत की गई।

चरण 2. पाइनकॉन पर डेटा संग्रहीत करें

हमने सफलतापूर्वक स्क्रैपलेस ब्लॉग पृष्ठ की पूरी सामग्री निकाल ली है। अब हमें पाइनकॉन वेक्टर स्टोर तक पहुंचने की आवश्यकता है ताकि हम इस जानकारी को स्टोर कर सकें ताकि हम इसे बाद में उपयोग कर सकें।

नोड: एग्रीगेट

ज्ञान आधार में डेटा को सुविधाजनक तरीके से संग्रहीत करने के लिए, हमें सभी सामग्री को एकीकृत करने के लिए एग्रीगेट नोड का उपयोग करने की आवश्यकता है।

एग्रीगेट: सभी आइटम डेटा (एक सूची में)
फील्ड में आउटपुट डालें: data
शामिल करें: सभी फ़ील्ड
शानदार! सभी डेटा सफलतापूर्वक एकीकृत किया गया है। अब हमें प्राप्त डेटा को एक टेक्स्ट फॉर्मेट में परिवर्तित करने की आवश्यकता है जिसे सीधे पाइनकोन द्वारा पढ़ा जा सके। ऐसा करने के लिए, बस एक फ़ाइल में परिवर्तित करें।

नोड: पाइनकोन वेक्टर स्टोर

अब हमें ज्ञान आधार को कॉन्फ़िगर करने की आवश्यकता है। उपयोग किए गए नोड हैं:

पाइनकोन वेक्टर स्टोर
गूगल जेमीनी
डिफ़ॉल्ट डेटा लोडर
रिकर्सिव कैरेक्टर टेक्स्ट स्प्लिटर

उपर्युक्त चार नोड पुनरावृत्त रूप से उस डेटा को एकीकृत और क्रॉल करेंगे जिसे हमने प्राप्त किया है। फिर सभी को पाइनकोन ज्ञान आधारित में एकीकृत किया जाएगा।

चरण 3. AI का उपयोग करके SERP विश्लेषण

यह सुनिश्चित करने के लिए कि आप ऐसा कंटेंट लिख रहे हैं जो रैंक करे, हम एक जीवित SERP विश्लेषण करते हैं:

अपने चुने हुए कीवर्ड के लिए खोज परिणाम प्राप्त करने के लिए Scrapeless Deep SerpApi का उपयोग करें
दोनों कीवर्ड और खोज इरादा (जैसे, स्क्रैपिंग, गूगल ट्रेंड्स, API) इनपुट करें
परिणामों का विश्लेषण एक LLM द्वारा किया जाता है और उन्हें HTML रिपोर्ट में संक्षेपित किया जाता है

नोड: फ़ील्ड संपादित करें

ज्ञान आधार तैयार है! अब यह निर्धारित करने का समय है कि हमारे लक्ष्य कीवर्ड क्या हैं। सामग्री बॉक्स में लक्ष्य कीवर्ड भरें और इरादा जोड़ें।

नोड: गूगल सर्च

गूगल सर्च नोड लक्ष्य कीवर्ड प्राप्त करने के लिए Scrapeless का डीप सर्पAPI कॉल करता है।

नोड: LLM चेन

जेमिनी के साथ LLM चेन बनाना हमें पिछले चरणों में प्राप्त डेटा का विश्लेषण करने में मदद कर सकता है और LLM को वह संदर्भ इनपुट और इरादा समझा सकता है जिसका हमें उपयोग करना है ताकि LLM उस फीडबैक को उत्पन्न कर सके जो बेहतर तरीके से जरूरतों को पूरा करे।

नोड: मार्कडाउन

चूंकि LLM सामान्यतः मार्कडाउन प्रारूप में आउटपुट करता है, उपयोगकर्ता के रूप में हम सीधे उस डेटा को प्राप्त नहीं कर सकते जिसकी हमें सबसे स्पष्ट आवश्यकता है, इसलिए कृपया परिणामों को HTML में परिवर्तित करने के लिए एक मार्कडाउन नोड जोड़ें।

नोड: HTML

अब हमें परिणामों को मानकीकरण करने के लिए HTML नोड का उपयोग करने की आवश्यकता है - संबंधित सामग्री को अंतर्ज्ञानी रूप से प्रदर्शित करने के लिए ब्लॉग/रिपोर्ट प्रारूप का उपयोग करें।

संचालन: HTML टेम्पलेट उत्पन्न करें

आवश्यक कोड इस प्रकार है:

XML Copy

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8" />
  <title>रिपोर्ट सारांश</title>
  <link href="https://fonts.googleapis.com/css2?family=Inter:wght@400;600;700&display=swap" rel="stylesheet">
  <style>
    body {
      margin: 0;
      padding: 0;
      font-family: 'Inter', sans-serif;
      background: #f4f6f8;
      display: flex;
      align-items: center;
      justify-content: center;
      min-height: 100vh;
    }

    .container {
      background-color: #ffffff;
      max-width: 600px;
      width: 90%;
      padding: 32px;
      border-radius: 16px;
      box-shadow: 0 10px 30px rgba(0, 0, 0, 0.1);
      text-align: center;
    }

    h1 {
      color: #ff6d5a;
      font-size: 28px;
      font-weight: 700;
      margin-bottom: 12px;
    }

    h2 {
      color: #606770;
      font-size: 20px;
      font-weight: 600;
      margin-bottom: 24px;
    }

    .content {
      color: #333;
      font-size: 16px;
      line-height: 1.6;
      white-space: pre-wrap;
    }

    @media (max-width: 480px) {
      .container {
        padding: 20px;
      }

      h1 {
        font-size: 24px;
      }

      h2 {
        font-size: 18px;
      }
    }
  </style>
</head>
<body>
  <div class="container">
    <h1>डेटा रिपोर्ट</h1>
    <h2>स्वचालन के माध्यम से संसाधित</h2>
    <div class="content">{{ $json.data }}</div>
  </div>

  <script>
    console.log("नमस्ते दुनिया!");
  </script>
</body>
</html>

इस रिपोर्ट में शामिल हैं:

शीर्ष-रैंकिंग कीवर्ड और लंबे-पूंछ वाले वाक्यांश
उपयोगकर्ता खोज इरादा रुझान
सुझावित ब्लॉग शीर्षक और कोण
कीवर्ड क्लस्टरिंग

चरण 4. AI + RAG के साथ ब्लॉग उत्पन्न करना

अब जब आपने ज्ञान संचित और संग्रहीत किया है और अपने कीवर्ड पर शोध किया है, तो अपने ब्लॉग को उत्पन्न करने का समय आ गया है।

SERP रिपोर्ट से अंतर्दृष्टि का उपयोग करते हुए एक प्रॉम्प्ट तैयार करें
AI एजेंट (जैसे, क्लॉड, जेमिनी, या ओपनराउटर) को कॉल करें
मॉडल पाइनकोन से प्रासंगिक संदर्भ प्राप्त करता है और एक पूर्ण ब्लॉग पोस्ट लिखता है
सामान्य एआई आउटपुट के विपरीत, यहाँ का परिणाम Scrapeless की मूल सामग्री से विशेष विचारों, वाक्यांशों और टोन को शामिल करता है — जो RAG के कारण संभव हुआ है।

अंतिम विचार

यह अंत-से-अंत SEO सामग्री इंजन n8n + Scrapeless + वेक्टर डेटाबेस + LLMs की शक्ति को प्रदर्शित करता है।
आप कर सकते हैं:

Scrapeless ब्लॉग पेज को किसी अन्य ब्लॉग से बदलें
पाइनकोन को अन्य वेक्टर स्टोर्स के लिए स्वैप करें
लेखन इंजन के रूप में OpenAI, क्लॉड या जेमिनी का उपयोग करें
कस्टम प्रकाशन पाइपलाइन बनाएं (जैसे, CMS या Notion पर स्वचालित रूप से पोस्ट करना)

👉 आज ही Scrapeless कम्युनिटी नोड को स्थापित करके शुरू करें और बिना कोडिंग के बड़े पैमाने पर ब्लॉग उत्पन्न करना शुरू करें।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

Crawl4AI को Scrapeless Cloud Browser के साथ कैसे बढ़ाएं

Crawl4AI को Scrapeless Cloud Browser के साथ कुशल, बड़े पैमाने पर वेब स्क्रैपिंग के लिए एकीकृत करना सीखें। स्वचालित प्रॉक्सियों, कस्टम फिंगरप्रिंट्स, सत्र पुन: उपयोग और वास्तविक समय में डिबगिंग को अनलॉक करें।

Emily Chen

20-Oct-2025

Crawl4AI को Scrapeless Cloud Browser के साथ कैसे बढ़ाएं

स्क्रेपलेस MCP सर्वर आधिकारिक रूप से लाइव है! अपना अंतिम एआई-वेब कनेक्टर बनाएं

स्क्रेपलेस MCP सर्वर कैसे LLMs को वास्तविक समय में वेब ब्राउज़िंग और स्क्रेपिंग क्षमताएं देता है, यह जानें। सीखें कि कैसे AI एजेंट बनाएँ जो निर्बाध रूप से गतिशील वेब सामग्री को खोजें, निकालें और बातचीत करें।

Michael Lee

17-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए कुशल और अनुपालन शिपमेंट डेटा स्क्रैपिंग

स्क्रेपलेस USPS टूल का उपयोग करके ERP, OMS, और SaaS प्लेटफॉर्म के लिए दक्षता और अनुपालन के साथ संरचित, वास्तविक समय की ट्रैकिंग डेटा प्राप्त करना सीखें।

Emily Chen

02-Jul-2025

स्क्रैपलेस यूएसपीएस टूल गाइड: बी2बी सिस्टम के लिए प्रभावी और अनुपालन शिपमेंट डेटा स्क्रैपिंग

सूची