🥳हमारे शक्तिशाली वेब स्क्रैपिंग टूलकिट तक पहुंचने के लिए स्क्रैपलेस कम्युनिटी और अपने नि: शुल्क परीक्षण का दावा करें!
वापस ब्लॉग पर

स्क्रैपीलेस क्रॉल: पैमाने पर वेब डेटा स्क्रैपिंग और क्रॉलिंग के लिए समाधान

Alex Johnson
Alex Johnson

Senior Web Scraping Engineer

05-Jun-2025

Scrapeless ने Crawl लॉन्च करने की खुशी जाहिर की है, जो बड़े पैमाने पर डेटा स्क्रैपिंग और प्रोसेसिंग के लिए विशेष रूप से विकसित की गई एक सुविधा है। Crawl अपनी मुख्य लाभों के साथ खड़ा है: बुद्धिमान पुनरावृत्त स्क्रैपिंग, थोक डेटा प्रोसेसिंग क्षमताएं, और लचीला मल्टी-फॉर्मेट आउटपुट, जो उद्यमों और डेवलपर्स को विशाल वेब डेटा को तेजी से अधिग्रहित और प्रोसेस करने में सक्षम बनाता है—जो AI प्रशिक्षण, बाजार विश्लेषण, व्यापार निर्णय लेने, और इसके आगे के अनुप्रयोगों को ईंधन देता है।

💡जल्द आ रहा है: AI LLM गेटवे के माध्यम से डेटा निष्कर्षण और सारांशण, ओपन-सोर्स फ्रेमवर्क और दृश्य कार्यप्रवाह एकीकरण के लिए निर्बाध एकीकरण के साथ—AI डेवलपर्स के लिए वेब सामग्री की चुनौतियों को हल करना।

Crawl क्या है

what is crawl

Crawl केवल एक साधारण डेटा स्क्रैपिंग टूल नहीं है बल्कि स्क्रैपिंग और क्रॉलिंग कार्यक्षमताओं को एकीकृत करने वाला एक व्यापक प्लेटफार्म है।

  • थोक क्रॉलिंग: बड़े पैमाने पर एकल पृष्ठ क्रॉलिंग और पुनरावृत्त क्रॉलिंग का समर्थन करता है।

  • मल्टी-फॉर्मेट डिलिवरी: JSON, Markdown, Metadata, HTML, Links, और Screenshot रूपों के साथ संगत।

  • एंटी-डिटेक्शन स्क्रैपिंग: हमारा स्वतंत्र रूप से विकसित क्रोमियम कर्नेल, उच्च अनुकूलन, सत्र प्रबंधन, और एंटी-डिटेक्शन क्षमताओं, जैसे फिंगरप्रिंट कॉन्फ़िग, CAPTCHA समाधान, स्टील्थ मोड, और प्रॉक्सी रोटेशन के माध्यम से वेबसाइट ब्लॉकों को बायपास करने में सक्षम बनाता है।

  • स्व-विकसित क्रोमियम-प्रेरित: हमारे क्रोमियम कर्नेल द्वारा संचालित, उच्च अनुकूलन, सत्र प्रबंधन, और ऑटो CAPTCHA समाधान में सक्षम बनाता है।

    1. ऑटो CAPTCHA समाधान: सामान्य CAPTCHA प्रकारों, जैसे reCAPTCHA v2 और Cloudflare Turnstile/Challenge को स्वचालित रूप से संभालता है।

    2. सत्र रिकॉर्डिंग और पुनःप्रदर्शन: सत्र पुनःप्रदर्शन आपको रिकॉर्ड की गई प्लेबैक के माध्यम से क्रियाओं और अनुरोधों की आसानी से जांच करने में मदद करता है, उन्हें चरणबद्ध तरीके से समीक्षा करके समस्याओं को हल करने और प्रक्रिया में सुधार के लिए संचालन को जल्दी से समझने के लिए।

    3. समवर्तीता लाभ: अन्य क्रॉलर के सख्त समवर्तीता सीमाओं के विपरीत, Crawl की बुनियादी योजना 50 समवर्तीता का समर्थन करती है, जबकि प्रीमियम योजना में असीमित समवर्तीता है।

    4. लागत की बचत: एंटी-क्रॉल उपायों वाली वेबसाइटों पर प्रतिस्पर्धियों को पीछे छोड़ते हुए, यह मुफ्त CAPTCHA समाधान में महत्वपूर्ण लाभ प्रदान करता है — 70% लागत की बचत की उम्मीद है।

उन्नत डेटा स्क्रैपिंग और प्रोसेसिंग क्षमताओं का उपयोग करते हुए, Crawl सुनिश्चित करता है कि संरचित वास्तविक समय के खोज डेटा की डिलीवरी हो। यह उद्यमों और डेवलपर्स को बाजार के रुझानों के आगे रहने, डेटा-चालित स्वचालन वर्कफ्लो को अनुकूलित करने, और बाजार रणनीतियों को तेजी से समायोजित करने की शक्ति देता है।

Crawl के साथ जटिल डेटा चुनौतियों का समाधान: तेज, स्मार्ट, और अधिक प्रभावी

उन डेवलपर्स और उद्यमों के लिए जिन्हें बड़े पैमाने पर विश्वसनीय वेब डेटा की आवश्यकता है, Crawl यह भी प्रदान करता है:
✔ उच्च गति डेटा स्क्रैप – सेकंडों में कई वेब पृष्ठों से डेटा प्राप्त करें
✔ निर्बाध एकीकरण– जल्द ही Langchain, N8n, Clay, Pipedream, Make आदि जैसे ओपन-सोर्स फ्रेमवर्क और दृश्य कार्यप्रवाह एकीकरण के साथ एकीकृत करें।
✔ भू-लक्ष्यीकरण प्रॉक्सीज़ – अंतर्निहित प्रॉक्सी का समर्थन 195 देशों के लिए
✔ सत्र प्रबंधन – सत्रों का बुद्धिमानी से प्रबंधन करें और वास्तविक समय में LiveURL सत्रों को देखें

Crawl का उपयोग कैसे करें

Crawl API डेटा स्क्रैप को सरल बनाता है, या तो एकल कॉल में वेब पृष्ठों से विशिष्ट सामग्री लाकर या पूरी साइट और उसके लिंक को पुनरावृत्त करके सभी उपलब्ध डेटा इकट्ठा करता है, जो कई प्रारूपों में समर्थित है।

Scrapeless स्क्रैप अनुरोध प्रारंभ करने और उनके स्थिति/परिणाम की जांच करने के लिए अंत बिंदुओं प्रदान करता है। डिफ़ॉल्ट रूप से, स्क्रैपिंग असामयिक होती है: पहले एक कार्य शुरू करें, फिर पूर्णता तक इसकी स्थिति की निगरानी करें। हालाँकि, हमारे SDK में एक सरल फ़ंक्शन शामिल है जो पूरी प्रक्रिया को संभालता है और कार्य समाप्त होने पर डेटा लौटाता है।

स्थापना

NPM का उपयोग करके Scrapeless SDK स्थापित करें:

Bash Copy
npm install @scrapeless-ai/sdk

PNPM का उपयोग करके Scrapeless SDK स्थापित करें:

Bash Copy
pnpm add @scrapeless-ai/sdk

एकल पृष्ठ स्क्रॉल करें

एक कॉल में वेब पृष्ठों से विशिष्ट डेटा (जैसे, उत्पाद विवरण, समीक्षाएँ) स्क्रैप करें।

उपयोग

JavaScript Copy
import { Scrapeless } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new Scrapeless({
  apiKey: "your-api-key", // आपका API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.scrapingCrawl.scrape.scrapeUrl(
    "https://example.com"
  );

  console.log(result);
})();

ब्राउज़र कॉन्फ़िगरेशन

आप प्रॉक्सियों का उपयोग करने जैसे स्क्रैपिंग के लिए सत्र सेटिंग्स को अनुकूलित कर सकते हैं, जैसे नए ब्राउज़र सत्र का निर्माण करना।
Scrapeless स्वचालित रूप से सामान्य CAPTCHAs को संभालता है, जिसमें reCAPTCHA v2 और Cloudflare Turnstile/Challenge शामिल हैं—कोई अतिरिक्त सेटअप की आवश्यकता नहीं है, विस्तार के लिए, देखें कैप्चा समाधान। सभी ब्राउज़र पैरामीटर की खोज करने के लिए API संदर्भ या ब्राउज़र पैरामीटर की जांच करें।

JavaScript Copy
import { Scrapeless } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new Scrapeless({
  apiKey: "your-api-key", // अपना API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.scrapingCrawl.scrapeUrl(
    "https://example.com",
    {
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

स्क्रैप कॉन्फ़िगरेशन

स्क्रैप कार्य के लिए वैकल्पिक पैरामीटर में आउटपुट प्रारूप, केवल मुख्य पृष्ठ सामग्री लौटाने के लिए फ़िल्टरिंग और पृष्ठ नेविगेशन के लिए अधिकतम टाइमआउट सेट करना शामिल है।

JavaScript Copy
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपना API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.scrapeUrl(
    "https://example.com",
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
    }
  );

  console.log(result);
})();

स्क्रैप एंडपॉइंट पर पूर्ण संदर्भ के लिए, API संदर्भ की जांच करें।

बैच स्क्रैप

बैच स्क्रैप सामान्य स्क्रैप की तरह काम करता है, सिवाय इसके कि एकल URL के बजाय, आप एक साथ स्क्रैप करने के लिए URLs की सूची प्रदान कर सकते हैं।

JavaScript Copy
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपना API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.batchScrapeUrls(
    ["https://example.com", "https://scrapeless.com"],
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

क्रॉल सबपृष्ठ

क्रॉल API किसी वेबसाइट और उसके लिंक को पुनरावृत्तिपूर्वक स्क्रॉल करने का समर्थन करता है ताकि सभी उपलब्ध डेटा निकाला जा सके।
विस्तृत उपयोग के लिए, क्रॉल API संदर्भ की जांच करें।

उपयोग

पूर्ण डोमेन और उसके लिंक का पता लगाने के लिए पुनरावृत्तिपूर्वक स्क्रॉलिंग का उपयोग करें, प्रत्येक उपलब्ध डेटा का टुकड़ा निकालते हुए।

JavaScript Copy
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपना API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      },
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

प्रतिक्रिया

JavaScript Copy
{
  "success": true,
  "status": "completed",
  "completed": 2,
  "total": 2,
  "data": [
    {
      "url": "https://example.com",
      "metadata": {
        "title": "Example Page",
        "description": "A sample webpage"
      },
      "markdown": "# Example Page\nThis is content...",
      ...
    },
    ...
  ]
}

प्रत्येक क्रॉल किए गए पृष्ठ की अपनी स्थिति होती है completed या failed और इसमें अपनी स्वयं की त्रुटि फ़ील्ड हो सकती है, इसलिए इस पर सतर्क रहें।
पूर्ण स्कीमा देखने के लिए API संदर्भ की जांच करें।

ब्राउज़र कॉन्फ़िगरेशन

स्क्रैप नौकरियों के लिए सत्र कॉन्फ़िगरेशन को अनुकूलित करना नए ब्राउज़र सत्र बनाने की प्रक्रिया का अनुसरण करता है। उपलब्ध विकल्पों में प्रॉक्सी कॉन्फ़िगरेशन शामिल है। सभी समर्थित सत्र पैरामीटर्स को देखने के लिए API संदर्भ या ब्राउज़र पैरामीटर की सलाह लें।

JavaScript Copy
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपना API कुंजी प्राप्त करें https://scrapeless.com से
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

स्क्रैप कॉन्फ़िग्रेशन

पैरामीटर में आउटपुट प्रारूप, केवल मुख्य पृष्ठ सामग्री लौटाने के लिए फ़िल्टर और पृष्ठ नेविगेशन के लिए अधिकतम टाइमआउट सेटिंग शामिल हो सकते हैं।

JavaScript Copy
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// क्लाइंट को प्रारंभ करें
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // अपना एपीआई की https://scrapeless.com से प्राप्त करें
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      }
    }
  );

  console.log(result);
})();

क्रॉल एंडपॉइंट पर पूर्ण संदर्भ के लिए, API संदर्भ देखें।

क्रॉलिंग के विभिन्न उपयोग मामलों की खोज

डेवलपर्स के लिए उनके कोड का परीक्षण और डिबग करने के लिए एक इन-बिल्ट प्लेग्राउंड उपलब्ध है, और आप किसी भी स्क्रैपिंग आवश्यकताओं के लिए Crawl का उपयोग कर सकते हैं, उदाहरण के लिए:

  • उत्पाद जानकारी स्क्रैपिंग
    ई-कॉमर्स वेबसाइटों पर स्क्रैपिंग द्वारा उत्पाद नाम, कीमतें, उपयोगकर्ता रेटिंग और समीक्षाओं की गणना जैसी कुंजी डेटा निकाली जाती हैं। उत्पाद निगरानी को पूरी तरह से समर्थन करता है और व्यवसायों को सूचित निर्णय लेने में मदद करता है।
    e-commercial sites
  • फोरम पोस्ट क्रॉलिंग
    गहराई और चौड़ाई पर सटीक नियंत्रण के साथ मुख्य पोस्ट सामग्री और उप-पृष्ठ टिप्पणियाँ कैप्चर करें, समुदाय चर्चा से व्यापक अंतर्दृष्टि सुनिश्चित करना।
    forum

अब Crawl और Scrape का आनंद लें!

किसी भी जरूरत के लिए लागत-कुशल और सस्ती: शुरू करें $1.8/जीबी, प्रति पृष्ठ नहीं

हमारे क्रोमियम-आधारित स्क्रैपर के साथ प्रतिस्पर्धियों को पीछे छोड़ें जिसमें प्रॉक्सी वॉल्यूम और प्रति घंटा दर को जोड़ने वाला एक मूल्य निर्धारण मॉडल है, जो बड़े पैमाने पर डेटा परियोजनाओं पर पृष्ठ-गणना मॉडल की तुलना में 70% लागत बचत प्रदान करता है।

अब एक परीक्षण के लिए पंजीकरण करें और मजबूत वेब टूलकिट प्राप्त करें।

💡उच्च मात्रा के उपयोगकर्ताओं के लिए, अनुकूलित मूल्य निर्धारण के लिए हमसे संपर्क करें – आपकी आवश्यकताओं के अनुसार प्रतिस्पर्धी दरें।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची