लैंगचेन एजेंट्स 21 लाइव वेब टूल्स के साथ स्क्रैपलेस MCP दें।
Expert in Web Scraping Technologies
मुख्य बिंदु:
- LangChain एजेंट एक क्लाइंट कॉन्फ़िग से 21 लाइव वेब उपकरण प्राप्त करते हैं।
langchain-mcp-adaptersपैकेज एक LangChain ऐप को Scrapeless MCP सर्वर से जोड़ता है और पूरे उपकरण सतह — ब्राउज़र नियंत्रण, पृष्ठ स्क्रैपिंग, Google खोज और ट्रेंड्स — को बायंडिंग के लिए तैयारStructuredToolऑब्जेक्ट के रूप में लौटाता है। - होस्टेड पथ पर कोई नोड आवश्यक नहीं। क्लाइंट को
https://api.scrapeless.com/mcpपर स्ट्रीम करने योग्य HTTP के माध्यम सेx-api-tokenके साथ इंगित करें; stdio पथ (npx -y scrapeless-mcp-server) स्थानीय सेटअप के लिए वही सतह है। - कोई मॉडल शामिल होने से पहले उपकरण कार्य करते हैं।
get_tools()इन्हें सूचीबद्ध करता है औरainvoke()उन्हें सीधे निष्पादित करता है — लाइव URL परscrape_markdownपृष्ठ को मार्कडाउन के रूप में लौटाता है — इसलिए वायरिंग बिना LLM कुंजी के परीक्षण योग्य है। - नाम परिवहन द्वारा भिन्न होते हैं। होस्टेड एंडपॉइंट नग्न नाम प्रदान करता है (
browser_goto,scrape_markdown,google_search); stdio सर्वर उन्हेंscrapeless_*नामस्थान में रखता है। दोनों तरीके से समान 21 उपकरण हैं। - उपकरणों से एजेंट तक एक कंस्ट्रक्टर है। लौटाए गए उपकरणों को किसी भी LangChain चैट मॉडल से बंधित करें और एजेंट अपने तर्क के लूप के भीतर लाइव वेब की खोज, ब्राउज़ और स्क्रेप कर सकता है।
- शुरू करने के लिए फ्री। नए Scrapeless खाते में फ्री ट्रायल क्रेडिट शामिल हैं — app.scrapeless.com पर साइन अप करें।
आप इसके साथ क्या कर सकते हैं
- ऐजेंट जो लाइव वेब पढ़ते हैं, उनके अनुसंधान। खोज के लिए
google_search, साफ पृष्ठ पाठ के लिएscrape_markdown— एजेंट लूप के पुनर्प्राप्ति आधे, बिना स्क्रैपर बनाए। - ब्राउज़र-ड्राइविंग एजेंट। सोलह
browser_*उपकरण (बनाना, जाना, क्लिक करना, टाइप करना, स्क्रॉल करना, स्क्रीनशॉट लेना, स्नैपशॉट लेना, इंतजार करना) एक एजेंट को संचालित करने के लिए एक असली एंटी-डिटेक्शन क्लाउड ब्राउज़र सत्र देते हैं। - बाजार और ट्रेंड निगरानी।
google_trendsऔर अनुसूचित स्क्रैपिंग एक LangChain पाइपलाइन को एक निगरानी सेवा में बदल देते हैं। - उपकरण-ग्राउंडेड RAG। पूर्व-इंडेक्सिंग के बजाय मांग पर मार्कडाउन के रूप में पृष्ठों को लाना, और एजेंट को बताना कि क्या पढ़ना है।
- सभी के लिए एक प्रमाणीकरण। वही Scrapeless API कुंजी जो स्क्रैपिंग API अभिनेताओं को संचालित करती है, MCP उपकरण सतह को भी संचालित करती है।
Scrapeless MCP सर्वर क्यों
MCP (मॉडल संदर्भ प्रोटोकॉल) उपकरणों को एजेंटों को सौंपने का मानक इंटरफ़ेस है, और LangChain इसे आधिकारिक एडाप्टर पैकेज के माध्यम से बोलता है। उस प्रोटोकॉल के दूसरी ओर, Scrapeless MCP सर्वर स्क्रैपिंग अवसंरचना को 21 प्रकार के उपकरणों के रूप में उजागर करता है: Scraping Browser पर क्लाउड-ब्राउज़र सत्र, HTML, मार्कडाउन, या स्क्रीनशॉट के लिए एकल-शॉट पृष्ठ स्क्रैपिंग, और Google खोज और ट्रेंड्स। एजेंट क्षमताएं प्राप्त करता है; रेंडरिंग, एंटी-डिटेक्शन, और प्रॉक्सी रूटिंग सर्वर-पक्ष पर रहती हैं।
संयोग महत्वपूर्ण है क्योंकि LangChain एजेंटों के उपकरणों के रूप में ही उपयोगी होते हैं। एक मॉडल जो योजना बना सकता है लेकिन किसी लाइव पृष्ठ को लाने में असमर्थ है, वह प्रशिक्षण डेटा से उत्तर देता है; वही मॉडल इस उपकरण सतह के साथ उस वेब को पढ़ता है जिस पर वह तर्क कर रहा है।
पूर्वापेक्षाएँ
- Python 3.10+ और एक वर्चुअल वातावरण।
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर साइन अप करें।
- वैकल्पिक stdio परिवहन के लिए: Node.js 18+ (होस्टेड HTTP पथ को किसी नोड की आवश्यकता नहीं है)।
bash
export SCRAPELESS_API_KEY=your_api_token_here
कनेक्ट करें
1. एडाप्टर स्थापित करें
bash
pip install langchain-mcp-adapters langchain-core
2. क्लाइंट कॉन्फ़िगर करें और उपकरण संख्या को सत्यापित करें
होस्टेड एंडपॉइंट सबसे तेज़ पथ है — शुद्ध HTTPS, x-api-token हेडर द्वारा प्रमाणित:
python
# handshake.py — LangChain को Scrapeless MCP सर्वर से कनेक्ट करें, उपकरणों को सूचीबद्ध करें
import asyncio
import os
from langchain_mcp_adapters.client import MultiServerMCPClient
async def main():
client = MultiServerMCPClient({
"scrapeless": {
"transport": "streamable_http",
"url": "https://api.scrapeless.com/mcp",
"headers": {"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
}
})
tools = await client.get_tools()
names = sorted(t.name for t in tools)
print(f" उपकरणों की संख्या: {len(names)}")
print("नाम:", ", ".join(names))
asyncio.run(main())
एक सही हैंडशेक 21 उपकरण प्रिंट करता है:
browser_click, browser_close, browser_create, browser_get_html, browser_get_text, browser_go_back, browser_go_forward, browser_goto, browser_press_key, browser_screenshot, browser_scroll, browser_scroll_to, browser_snapshot, browser_type, browser_wait, browser_wait_for, google_search, google_trends, scrape_html, scrape_markdown, scrape_screenshot
3. या stdio के माध्यम से सर्वर को स्थानीय रूप से चलाएं
यहां पर एक npm पैकेज के रूप में समान सतह के जहाज हैं जो स्थानीय सेटअप के लिए है — मानक MCP कॉन्फ़िगरेशन आकार, जिसमें कुंजी को पर्यावरण परिवर्तनशील के रूप में पास किया गया है:
json
{
"scrapeless": {
"command": "npx",
"args": ["-y", "scrapeless-mcp-server"],
"transport": "stdio",
"env": { "SCRAPELESS_KEY": "your_api_token_here" }
}
}
एक ट्रांसपोर्ट-लेवल का फर्क उम्मीद करें: stdio सर्वर अपने उपकरणों के नामों को scrapeless_* नामस्थान करता है, जबकि होस्टेड एंडपॉइंट उन्हें बिना किसी नाम क्षेत्र के सर्व करता है। जो कोड नाम के माध्यम से उपकरणों को खोजता है उसे उपसर्ग पर मेल करना चाहिए।
मुफ्त योजना पर अपना API कुंजी प्राप्त करें: app.scrapeless.com
आप इसे वास्तव में कैसे उपयोग करते हैं: एक उपकरण को कॉल करें, फिर उन्हें एक एजेंट को सौंपें
वापस किए गए ऑब्जेक्ट्स सामान्य LangChain StructuredTools हैं, जिसका मतलब है कि वे सीधे चलते हैं — कोई मॉडल आवश्यक नहीं है। वायरिंग के काम करने का सबसे छोटा संभव प्रमाण:
python
# invoke_tool.py — एक MCP उपकरण को सीधे अडैप्टर के माध्यम से निष्पादित करें
import asyncio
import os
from langchain_mcp_adapters.client import MultiServerMCPClient
async def main():
client = MultiServerMCPClient({
"scrapeless": {
"transport": "streamable_http",
"url": "https://api.scrapeless.com/mcp",
"headers": {"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
}
})
tools = {t.name: t for t in await client.get_tools()}
result = await tools["scrape_markdown"].ainvoke(
{"url": "https://www.scrapeless.com/hi/blog/best-llm-scrapers-2026"}
)
text = result if isinstance(result, str) else str(result)
print(f"scrape_markdown ने {len(text):,} अक्षरों का मार्कडाउन लौटाया")
asyncio.run(main())
एक लाइव रन पर यह एक उपकरण कॉल से पूर्ण लेख को मार्कडाउन के रूप में लौटाता है — हजारों अक्षरों का साफ़ पृष्ठ पाठ।
उपकरणों को एजेंट से जोड़ना उसी एक निर्माता के साथ है जैसा कि यह हमेशा LangChain में होता है — अपने स्टैक द्वारा उपयोग किए जाने वाले किसी भी चैट मॉडल को लाएं (एक मॉडल API कुंजी इस गाइड का वह एक पूर्वापेक्षित है जो कवर नहीं किया गया है):
python
# agent.py — MCP उपकरणों को LangChain एजेंट से संलग्न करें (मॉडल API कुंजी की आवश्यकता है)
from langchain.agents import create_agent
agent = create_agent(model, tools) # `tools` client.get_tools() से, `model` = आपका चैट मॉडल
result = agent.invoke({
"messages": [{"role": "user", "content": "Scrapeless के लिए खोजें और शीर्ष परिणाम का संक्षिप्त विवरण दें।"}]
})
एजेंट के दृष्टिकोण से उपकरण बस वे कार्य हैं जिन्हें यह कॉल कर सकता है: यह योजना बनाता है, google_search चुनता है, पढ़ता है, scrape_markdown चुनता है, फिर से पढ़ता है, और लाइव सामग्री में से उत्तर देता है।
Scrapeless MCP उपकरण सतह
| समूह | उपकरण | वे क्या करते हैं |
|---|---|---|
| ब्राउज़र सत्र | browser_create, browser_goto, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_go_back, browser_go_forward, browser_wait, browser_wait_for, browser_snapshot, browser_get_html, browser_get_text, browser_screenshot, browser_close |
एक क्लाउड एंटी-डिटेक्शन ब्राउज़र को धीरे-धीरे चलाएं — सत्र कॉल के बीच रहते हैं |
| पेज स्क्रेपिंग | scrape_html, scrape_markdown, scrape_screenshot |
किसी भी URL को कच्चे HTML, साफ़ मार्कडाउन, या एक छवि के रूप में एक बार में प्राप्त करें |
| गूगल डेटा | google_search, google_trends |
संरचित खोज परिणाम और ट्रेंड डेटा |
आपको क्या मिलता है
उपकरण के परिणाम MCP सामग्री भागों के रूप में आते हैं जिन्हें अडैप्टर LangChain को उजागर करता है — स्क्रेपिंग उपकरणों के लिए, पेलोड स्वयं पृष्ठ है। ऊपर scrape_markdown कॉल लौटाता है कि लेख मार्कडाउन टेक्स्ट के रूप में तैयार है जिसे एक स्प्लिटर, एक संक्षेपक, या एजेंट की अपनी संदर्भ विंडो में डालना है। ब्राउज़र उपकरणों के अवलोकन (स्नैपशॉट, निकाले गए पाठ, स्क्रीनशॉट) वापस उसी तरह से लौटते हैं, जो एजेंट लूप के भीतर मल्टी-स्टेप ब्राउज़िंग को व्यवहार्य बनाता है।
निष्कर्ष: एक कॉन्फ़िग ब्लॉक, एक वेब-योग्य एजेंट
एकीकरण वास्तव में छोटा है: अडैप्टर स्थापित करें, MultiServerMCPClient को होस्टेड URL और अपनी टोकन दें, और get_tools() LangChain को 21 लाइव वेब क्षमताएं देती है। उपकरणों की संख्या की पुष्टि करें, एक सीधी ainvoke के साथ इसे साबित करें, फिर उसी सूची को अपने एजेंट से बांधें। Mastra एकीकरण गाइड दिखाती है कि उसी सर्वर को एक TypeScript एजेंट ढांचे में कैसे जोड़ा गया — समान सतह, अलग होस्ट।
क्या आप अपने एजेंट को लाइव वेब देने के लिए तैयार हैं?
हमें हमारे समुदाय में शामिल करें ताकि एक मुफ्त योजना प्राप्त कर सकें और उन डेवलपर्स से जुड़ सकें जो एजेंट पाइपलाइनों का निर्माण कर रहे हैं: Discord · Telegram।
साइन अप करें app.scrapeless.com पर मुफ्त ट्रायल क्रेडिट के लिए — मूल्य निर्धारण वर्तमान स्तरों को कवर करता है — और अपने लांगचेन एजेंटों को उन पन्नों की ओर इंगित करें जिन्हें उन्हें पढ़ना चाहिए।
सामान्य प्रश्न
प्र: क्या मुझे Node.js की आवश्यकता है?
केवल stdio ट्रांसपोर्ट के लिए, जो npm पैकेज को लोकल रूप से विकसित करता है। होस्टेड https://api.scrapeless.com/mcp अंत बिंदु साधारण HTTPS है — केवल पायथन स्टैक इसे बिना किसी Node के उपयोग करते हैं।
प्र: मैं अपनी पहचान कैसे सत्यापित करूं?
होस्टेड अंत बिंदु x-api-token: <आपकी कुंजी> को एक अनुरोध हेडर के रूप में लेता है; stdio सर्वर इसके वातावरण से SCRAPELESS_KEY पढ़ता है। दोनों ट्रांसपोर्ट के लिए एक ही कुंजी — app.scrapeless.com पर मुफ्त योजना पर बनाई गई।
प्र: मैं कैसे सत्यापित करूं कि इंटीग्रेशन वास्तव में सही तरीके से सेटअप है?
दो проверки, दोनों मॉडल-फ्री: get_tools() 21 उपकरण लौटाता है, और एक वास्तविक URL पर scrape_markdown का सीधा ainvoke पृष्ठ को मार्कडाउन के रूप में लौटा देता है। यदि दोनों पास हो जाएं, तो एजेंट बाइंडिंग केवल एक चरण शेष है।
प्र: मेरे स्थानीय सर्वर और होस्टेड अंत बिंदु के बीच उपकरणों के नाम क्यों भिन्न हैं?
stdio पैकेज नामों को scrapeless_* के रूप में नामांकित करता है; होस्टेड अंत बिंदु उन्हें बिना किसी विशेषता के प्रदान करता है। यदि आपका कोड दोनों के बीच काम करने की आवश्यकता है, तो प्रत्यय पर मेल करें।
प्र: क्या मैं एजेंट के बिना उपकरणों का उपयोग कर सकता हूँ?
हाँ — वे StructuredTool वस्तुएं हैं और ainvoke के माध्यम से स्वायत्त रूप से चलती हैं, जो उन्हें साधारण लांगचेन चेन और लांगग्राफ़ नोड्स में भी उपयोग योग्य बनाती हैं, केवल एजेंटों में नहीं।
प्र: क्या उपकरणों के माध्यम से वेब पहुँच कानूनी है?
उपकरण सार्वजनिक रूप से उपलब्ध पृष्ठों को Scrapeless इंफ्रास्ट्रक्चर के माध्यम से लाते हैं। नियम न्यायालय क्षेत्र और साइट की शर्तों के अनुसार भिन्न होते हैं — आपके एजेंट द्वारा पढ़े जाने वाले साइटों के ToS की समीक्षा करें और अपने उपयोग के मामले के लिए परामर्श लें। जीडीपीआर या सीसीपीए के तहत सुरक्षित व्यक्तिगत डेटा कभी भी एकत्र न करें।
प्र: इसे चलाने की लागत क्या है?
उपकरण कॉल उसी उपयोग-आधारित Scrapeless खाते से खींचती हैं जैसे प्लेटफॉर्म का बाकी हिस्सा, और नए खाते मुफ्त ट्रायल क्रेडिट के साथ शुरू होते हैं।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



