🎯 कस्टमाइज़ करने योग्य, डिटेक्शन-प्रतिरोधी क्लाउड ब्राउज़र जो स्व-विकसित Chromium द्वारा संचालित है, वेब क्रॉलर और एआई एजेंट्स के लिए डिज़ाइन किया गया। 👉अभी आज़माएं
वापस ब्लॉग पर

लैंगचेन एजेंट्स 21 लाइव वेब टूल्स के साथ स्क्रैपलेस MCP दें।

Ava Wilson
Ava Wilson

Expert in Web Scraping Technologies

10-Jun-2026

मुख्य बिंदु:

  • LangChain एजेंट एक क्लाइंट कॉन्फ़िग से 21 लाइव वेब उपकरण प्राप्त करते हैं। langchain-mcp-adapters पैकेज एक LangChain ऐप को Scrapeless MCP सर्वर से जोड़ता है और पूरे उपकरण सतह — ब्राउज़र नियंत्रण, पृष्ठ स्क्रैपिंग, Google खोज और ट्रेंड्स — को बायंडिंग के लिए तैयार StructuredTool ऑब्जेक्ट के रूप में लौटाता है।
  • होस्टेड पथ पर कोई नोड आवश्यक नहीं। क्लाइंट को https://api.scrapeless.com/mcp पर स्ट्रीम करने योग्य HTTP के माध्यम से x-api-token के साथ इंगित करें; stdio पथ (npx -y scrapeless-mcp-server) स्थानीय सेटअप के लिए वही सतह है।
  • कोई मॉडल शामिल होने से पहले उपकरण कार्य करते हैं। get_tools() इन्हें सूचीबद्ध करता है और ainvoke() उन्हें सीधे निष्पादित करता है — लाइव URL पर scrape_markdown पृष्ठ को मार्कडाउन के रूप में लौटाता है — इसलिए वायरिंग बिना LLM कुंजी के परीक्षण योग्य है।
  • नाम परिवहन द्वारा भिन्न होते हैं। होस्टेड एंडपॉइंट नग्न नाम प्रदान करता है (browser_goto, scrape_markdown, google_search); stdio सर्वर उन्हें scrapeless_* नामस्थान में रखता है। दोनों तरीके से समान 21 उपकरण हैं।
  • उपकरणों से एजेंट तक एक कंस्ट्रक्टर है। लौटाए गए उपकरणों को किसी भी LangChain चैट मॉडल से बंधित करें और एजेंट अपने तर्क के लूप के भीतर लाइव वेब की खोज, ब्राउज़ और स्क्रेप कर सकता है।
  • शुरू करने के लिए फ्री। नए Scrapeless खाते में फ्री ट्रायल क्रेडिट शामिल हैं — app.scrapeless.com पर साइन अप करें।

आप इसके साथ क्या कर सकते हैं

  • ऐजेंट जो लाइव वेब पढ़ते हैं, उनके अनुसंधान। खोज के लिए google_search, साफ पृष्ठ पाठ के लिए scrape_markdown — एजेंट लूप के पुनर्प्राप्ति आधे, बिना स्क्रैपर बनाए।
  • ब्राउज़र-ड्राइविंग एजेंट। सोलह browser_* उपकरण (बनाना, जाना, क्लिक करना, टाइप करना, स्क्रॉल करना, स्क्रीनशॉट लेना, स्नैपशॉट लेना, इंतजार करना) एक एजेंट को संचालित करने के लिए एक असली एंटी-डिटेक्शन क्लाउड ब्राउज़र सत्र देते हैं।
  • बाजार और ट्रेंड निगरानी। google_trends और अनुसूचित स्क्रैपिंग एक LangChain पाइपलाइन को एक निगरानी सेवा में बदल देते हैं।
  • उपकरण-ग्राउंडेड RAG। पूर्व-इंडेक्सिंग के बजाय मांग पर मार्कडाउन के रूप में पृष्ठों को लाना, और एजेंट को बताना कि क्या पढ़ना है।
  • सभी के लिए एक प्रमाणीकरण। वही Scrapeless API कुंजी जो स्क्रैपिंग API अभिनेताओं को संचालित करती है, MCP उपकरण सतह को भी संचालित करती है।

Scrapeless MCP सर्वर क्यों

MCP (मॉडल संदर्भ प्रोटोकॉल) उपकरणों को एजेंटों को सौंपने का मानक इंटरफ़ेस है, और LangChain इसे आधिकारिक एडाप्टर पैकेज के माध्यम से बोलता है। उस प्रोटोकॉल के दूसरी ओर, Scrapeless MCP सर्वर स्क्रैपिंग अवसंरचना को 21 प्रकार के उपकरणों के रूप में उजागर करता है: Scraping Browser पर क्लाउड-ब्राउज़र सत्र, HTML, मार्कडाउन, या स्क्रीनशॉट के लिए एकल-शॉट पृष्ठ स्क्रैपिंग, और Google खोज और ट्रेंड्स। एजेंट क्षमताएं प्राप्त करता है; रेंडरिंग, एंटी-डिटेक्शन, और प्रॉक्सी रूटिंग सर्वर-पक्ष पर रहती हैं।

संयोग महत्वपूर्ण है क्योंकि LangChain एजेंटों के उपकरणों के रूप में ही उपयोगी होते हैं। एक मॉडल जो योजना बना सकता है लेकिन किसी लाइव पृष्ठ को लाने में असमर्थ है, वह प्रशिक्षण डेटा से उत्तर देता है; वही मॉडल इस उपकरण सतह के साथ उस वेब को पढ़ता है जिस पर वह तर्क कर रहा है।


पूर्वापेक्षाएँ

  • Python 3.10+ और एक वर्चुअल वातावरण।
  • एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
  • वैकल्पिक stdio परिवहन के लिए: Node.js 18+ (होस्टेड HTTP पथ को किसी नोड की आवश्यकता नहीं है)।
bash Copy
export SCRAPELESS_API_KEY=your_api_token_here

कनेक्ट करें

1. एडाप्टर स्थापित करें

bash Copy
pip install langchain-mcp-adapters langchain-core

2. क्लाइंट कॉन्फ़िगर करें और उपकरण संख्या को सत्यापित करें

होस्टेड एंडपॉइंट सबसे तेज़ पथ है — शुद्ध HTTPS, x-api-token हेडर द्वारा प्रमाणित:

python Copy
# handshake.py — LangChain को Scrapeless MCP सर्वर से कनेक्ट करें, उपकरणों को सूचीबद्ध करें
import asyncio
import os

from langchain_mcp_adapters.client import MultiServerMCPClient


async def main():
    client = MultiServerMCPClient({
        "scrapeless": {
            "transport": "streamable_http",
            "url": "https://api.scrapeless.com/mcp",
            "headers": {"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
        }
    })
    tools = await client.get_tools()
    names = sorted(t.name for t in tools)
    print(f" उपकरणों की संख्या: {len(names)}")
    print("नाम:", ", ".join(names))

asyncio.run(main())

एक सही हैंडशेक 21 उपकरण प्रिंट करता है:

browser_click, browser_close, browser_create, browser_get_html, browser_get_text, browser_go_back, browser_go_forward, browser_goto, browser_press_key, browser_screenshot, browser_scroll, browser_scroll_to, browser_snapshot, browser_type, browser_wait, browser_wait_for, google_search, google_trends, scrape_html, scrape_markdown, scrape_screenshot

3. या stdio के माध्यम से सर्वर को स्थानीय रूप से चलाएं

यहां पर एक npm पैकेज के रूप में समान सतह के जहाज हैं जो स्थानीय सेटअप के लिए है — मानक MCP कॉन्फ़िगरेशन आकार, जिसमें कुंजी को पर्यावरण परिवर्तनशील के रूप में पास किया गया है:

json Copy
{
  "scrapeless": {
    "command": "npx",
    "args": ["-y", "scrapeless-mcp-server"],
    "transport": "stdio",
    "env": { "SCRAPELESS_KEY": "your_api_token_here" }
  }
}

एक ट्रांसपोर्ट-लेवल का फर्क उम्मीद करें: stdio सर्वर अपने उपकरणों के नामों को scrapeless_* नामस्थान करता है, जबकि होस्टेड एंडपॉइंट उन्हें बिना किसी नाम क्षेत्र के सर्व करता है। जो कोड नाम के माध्यम से उपकरणों को खोजता है उसे उपसर्ग पर मेल करना चाहिए।

मुफ्त योजना पर अपना API कुंजी प्राप्त करें: app.scrapeless.com


आप इसे वास्तव में कैसे उपयोग करते हैं: एक उपकरण को कॉल करें, फिर उन्हें एक एजेंट को सौंपें

वापस किए गए ऑब्जेक्ट्स सामान्य LangChain StructuredTools हैं, जिसका मतलब है कि वे सीधे चलते हैं — कोई मॉडल आवश्यक नहीं है। वायरिंग के काम करने का सबसे छोटा संभव प्रमाण:

python Copy
# invoke_tool.py — एक MCP उपकरण को सीधे अडैप्टर के माध्यम से निष्पादित करें
import asyncio
import os

from langchain_mcp_adapters.client import MultiServerMCPClient


async def main():
    client = MultiServerMCPClient({
        "scrapeless": {
            "transport": "streamable_http",
            "url": "https://api.scrapeless.com/mcp",
            "headers": {"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
        }
    })
    tools = {t.name: t for t in await client.get_tools()}
    result = await tools["scrape_markdown"].ainvoke(
        {"url": "https://www.scrapeless.com/hi/blog/best-llm-scrapers-2026"}
    )
    text = result if isinstance(result, str) else str(result)
    print(f"scrape_markdown ने {len(text):,} अक्षरों का मार्कडाउन लौटाया")

asyncio.run(main())

एक लाइव रन पर यह एक उपकरण कॉल से पूर्ण लेख को मार्कडाउन के रूप में लौटाता है — हजारों अक्षरों का साफ़ पृष्ठ पाठ।

उपकरणों को एजेंट से जोड़ना उसी एक निर्माता के साथ है जैसा कि यह हमेशा LangChain में होता है — अपने स्टैक द्वारा उपयोग किए जाने वाले किसी भी चैट मॉडल को लाएं (एक मॉडल API कुंजी इस गाइड का वह एक पूर्वापेक्षित है जो कवर नहीं किया गया है):

python Copy
# agent.py — MCP उपकरणों को LangChain एजेंट से संलग्न करें (मॉडल API कुंजी की आवश्यकता है)
from langchain.agents import create_agent

agent = create_agent(model, tools)  # `tools` client.get_tools() से, `model` = आपका चैट मॉडल
result = agent.invoke({
    "messages": [{"role": "user", "content": "Scrapeless के लिए खोजें और शीर्ष परिणाम का संक्षिप्त विवरण दें।"}]
})

एजेंट के दृष्टिकोण से उपकरण बस वे कार्य हैं जिन्हें यह कॉल कर सकता है: यह योजना बनाता है, google_search चुनता है, पढ़ता है, scrape_markdown चुनता है, फिर से पढ़ता है, और लाइव सामग्री में से उत्तर देता है।


Scrapeless MCP उपकरण सतह

समूह उपकरण वे क्या करते हैं
ब्राउज़र सत्र browser_create, browser_goto, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_go_back, browser_go_forward, browser_wait, browser_wait_for, browser_snapshot, browser_get_html, browser_get_text, browser_screenshot, browser_close एक क्लाउड एंटी-डिटेक्शन ब्राउज़र को धीरे-धीरे चलाएं — सत्र कॉल के बीच रहते हैं
पेज स्क्रेपिंग scrape_html, scrape_markdown, scrape_screenshot किसी भी URL को कच्चे HTML, साफ़ मार्कडाउन, या एक छवि के रूप में एक बार में प्राप्त करें
गूगल डेटा google_search, google_trends संरचित खोज परिणाम और ट्रेंड डेटा

आपको क्या मिलता है

उपकरण के परिणाम MCP सामग्री भागों के रूप में आते हैं जिन्हें अडैप्टर LangChain को उजागर करता है — स्क्रेपिंग उपकरणों के लिए, पेलोड स्वयं पृष्ठ है। ऊपर scrape_markdown कॉल लौटाता है कि लेख मार्कडाउन टेक्स्ट के रूप में तैयार है जिसे एक स्प्लिटर, एक संक्षेपक, या एजेंट की अपनी संदर्भ विंडो में डालना है। ब्राउज़र उपकरणों के अवलोकन (स्नैपशॉट, निकाले गए पाठ, स्क्रीनशॉट) वापस उसी तरह से लौटते हैं, जो एजेंट लूप के भीतर मल्टी-स्टेप ब्राउज़िंग को व्यवहार्य बनाता है।


निष्कर्ष: एक कॉन्फ़िग ब्लॉक, एक वेब-योग्य एजेंट

एकीकरण वास्तव में छोटा है: अडैप्टर स्थापित करें, MultiServerMCPClient को होस्टेड URL और अपनी टोकन दें, और get_tools() LangChain को 21 लाइव वेब क्षमताएं देती है। उपकरणों की संख्या की पुष्टि करें, एक सीधी ainvoke के साथ इसे साबित करें, फिर उसी सूची को अपने एजेंट से बांधें। Mastra एकीकरण गाइड दिखाती है कि उसी सर्वर को एक TypeScript एजेंट ढांचे में कैसे जोड़ा गया — समान सतह, अलग होस्ट।

क्या आप अपने एजेंट को लाइव वेब देने के लिए तैयार हैं?

हमें हमारे समुदाय में शामिल करें ताकि एक मुफ्त योजना प्राप्त कर सकें और उन डेवलपर्स से जुड़ सकें जो एजेंट पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram
साइन अप करें app.scrapeless.com पर मुफ्त ट्रायल क्रेडिट के लिए — मूल्य निर्धारण वर्तमान स्तरों को कवर करता है — और अपने लांगचेन एजेंटों को उन पन्नों की ओर इंगित करें जिन्हें उन्हें पढ़ना चाहिए।


सामान्य प्रश्न

प्र: क्या मुझे Node.js की आवश्यकता है?

केवल stdio ट्रांसपोर्ट के लिए, जो npm पैकेज को लोकल रूप से विकसित करता है। होस्टेड https://api.scrapeless.com/mcp अंत बिंदु साधारण HTTPS है — केवल पायथन स्टैक इसे बिना किसी Node के उपयोग करते हैं।

प्र: मैं अपनी पहचान कैसे सत्यापित करूं?

होस्टेड अंत बिंदु x-api-token: <आपकी कुंजी> को एक अनुरोध हेडर के रूप में लेता है; stdio सर्वर इसके वातावरण से SCRAPELESS_KEY पढ़ता है। दोनों ट्रांसपोर्ट के लिए एक ही कुंजी — app.scrapeless.com पर मुफ्त योजना पर बनाई गई।

प्र: मैं कैसे सत्यापित करूं कि इंटीग्रेशन वास्तव में सही तरीके से सेटअप है?

दो проверки, दोनों मॉडल-फ्री: get_tools() 21 उपकरण लौटाता है, और एक वास्तविक URL पर scrape_markdown का सीधा ainvoke पृष्ठ को मार्कडाउन के रूप में लौटा देता है। यदि दोनों पास हो जाएं, तो एजेंट बाइंडिंग केवल एक चरण शेष है।

प्र: मेरे स्थानीय सर्वर और होस्टेड अंत बिंदु के बीच उपकरणों के नाम क्यों भिन्न हैं?

stdio पैकेज नामों को scrapeless_* के रूप में नामांकित करता है; होस्टेड अंत बिंदु उन्हें बिना किसी विशेषता के प्रदान करता है। यदि आपका कोड दोनों के बीच काम करने की आवश्यकता है, तो प्रत्यय पर मेल करें।

प्र: क्या मैं एजेंट के बिना उपकरणों का उपयोग कर सकता हूँ?

हाँ — वे StructuredTool वस्तुएं हैं और ainvoke के माध्यम से स्वायत्त रूप से चलती हैं, जो उन्हें साधारण लांगचेन चेन और लांगग्राफ़ नोड्स में भी उपयोग योग्य बनाती हैं, केवल एजेंटों में नहीं।

प्र: क्या उपकरणों के माध्यम से वेब पहुँच कानूनी है?

उपकरण सार्वजनिक रूप से उपलब्ध पृष्ठों को Scrapeless इंफ्रास्ट्रक्चर के माध्यम से लाते हैं। नियम न्यायालय क्षेत्र और साइट की शर्तों के अनुसार भिन्न होते हैं — आपके एजेंट द्वारा पढ़े जाने वाले साइटों के ToS की समीक्षा करें और अपने उपयोग के मामले के लिए परामर्श लें। जीडीपीआर या सीसीपीए के तहत सुरक्षित व्यक्तिगत डेटा कभी भी एकत्र न करें।

प्र: इसे चलाने की लागत क्या है?

उपकरण कॉल उसी उपयोग-आधारित Scrapeless खाते से खींचती हैं जैसे प्लेटफॉर्म का बाकी हिस्सा, और नए खाते मुफ्त ट्रायल क्रेडिट के साथ शुरू होते हैं।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची