स्क्रेपलेस MCP सर्वर के साथ डाटाब्रिक्स को बेहतर बनाएं
Lead Scraping Automation Engineer
TL;DR:
- एक Databricks एजेंट आपके डेटा पर तर्क कर सकता है लेकिन जब तक आप एक उपकरण नहीं जोड़ते, तब तक वह लाइव वेब तक नहीं पहुँच सकता — Scrapeless MCP सर्वर सबसे साफ़ तरीका है। एजेंट ब्रिक्स और मोज़ेक एआई एजेंट एक मॉडल, यूनिटी कैटलॉग फ़ंक्शंस, और जिन उपकरणों को आप पंजीकृत करते हैं, के ऊपर योजना बनाते हैं। एक Scrapeless MCP सर्वर की ओर इशारा करें और एजेंट को लाइव Google खोज, JavaScript रेंडरिंग, और बिना हाथ से स्क्रैपर लिखे एक पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र मिल जाता है।
- Databricks एक बाहरी MCP सर्वर तक एक यूनिटी कैटलॉग HTTP कनेक्शन और एक प्रबंधित प्रॉक्सी के माध्यम से पहुँचता है। आप
https://api.scrapeless.com/mcpको यूनिटी कैटलॉग कनेक्शन के रूप में "क्या mcp कनेक्शन है" विकल्प के साथ पंजीकृत करते हैं, Scrapelessx-api-tokenको कनेक्शन क्रेडेंशियल के रूप में संग्रहित करते हैं, और Databricks इसे एजेंट कोड परhttps://<workspace-host>/api/2.0/mcp/external/<connection_name>पर उजागर करता है। DatabricksMCPClient.list_tools()एजेंट कोड में सतह को कनेक्ट करता है। प्रॉक्सी URL और एकWorkspaceClientके साथ एकDatabricksMCPClientबनाएं,list_tools()को कॉल करें, परिणामों को आपके एजेंट ढांचे के उपकरण प्रकार में परिवर्तित करें, और एजेंट को Google SERP स्क्रैपर, एक ट्रेंड्स स्क्रैपर, HTML/Markdown/Screenshot सहायक, और 16 ब्राउज़र-ऑटोमेशन उपकरण मिल जाते हैं।- Scrapeless MCP सर्वर 21 उपकरण प्रदान करता है।
https://api.scrapeless.com/mcpके खिलाफ एक लाइवtools/listgoogle_search,google_trends,scrape_html,scrape_markdown,scrape_screenshot, और 16browser_*उपकरणों को लौटाता है — सर्वर इन्हें कच्चे नामों के रूप में उत्सर्जित करता है, और प्रत्येक क्लाइंट इन्हें लोड करते समय अपना स्वयं का नामस्थान जोड़ता है। - रेजिडेंशियल प्रॉक्सी और एंटी-डिटेक्शन क्लाउड-साइड चलते हैं। प्रत्येक टूल कॉल Scrapeless एंटी-डिटेक्शन क्लाउड ब्राउज़र के माध्यम से 195+ देशों में रेजिडेंशियल प्रॉक्सी के साथ मार्गदर्शित किया जाता है, इसलिए एजेंट को व्यावसायिक साइटों से बिना प्रॉक्सी या फिंगरप्रिंट सेटअप के एक रेंडर्ड, उपयोग योग्य प्रतिक्रिया मिलती है।
- stdio या HTTP-स्ट्रीम करने योग्य परिवहन। स्थानीय एजेंट विकास के लिए आप सर्वर को
npxके साथ प्रारंभ कर सकते हैं; एक तैनात मोज़ेक एआई एंडपॉइंट के लिए आप स्ट्रीम करने योग्य HTTP एंडपॉइंट पर इशारा करते हैं, जो ठीक वही है जिसे यूनिटी कैटलॉग कनेक्शन लपेटता है। - शुरू करने के लिए स्वतंत्र। नए Scrapeless खातों में मुफ्त स्क्रैपिंग ब्राउज़र रनटाइम शामिल है — app.scrapeless.com पर साइन अप करें।
परिचय: Databricks एजेंट को वेब का लाइव दृश्य दें
Databricks एजेंट ब्रिक्स और मोज़ेक एआई एजेंट ढांचा आपको एजेंट बनाने की अनुमति देता है जो आपके लेकहाउस पर तर्क करते हैं — यूनिटी कैटलॉग टेबल, वेक्टर इंडेक्स, शासित फ़ंक्शंस। एजेंट उन उपकरणों को कॉल करता है जो आप पंजीकृत करते हैं और कुछ नहीं। जो वह अपने आप नहीं कर सकता वह है वर्तमान में वेब को देखना। इसका ज्ञान मॉडल के प्रशिक्षण कटऑफ और जो कुछ भी आप इसके सामने रखते हैं, पर समाप्त होता है, इसलिए एक प्रश्न जैसे "इस प्रतिस्पर्धी की आज क्या कीमत है" या "इस प्रश्न के लिए वर्तमान शीर्ष परिणाम क्या है" के भीतर कार्यक्षेत्र में कोई उत्तर नहीं है।
यह सीमा जानबूझकर है: एक एजेंट की बाहरी दुनिया तक पहुंच ठीक उसी उपकरणों के सेट पर निर्भर करती है जो इसके साथ जुड़े होते हैं। इसलिए उपकरण परत वास्तविक समय के वेब एक्सेस को जोड़ने का स्थान है, और मॉडल संदर्भ प्रोटोकॉल (MCP) इसे करने का मानक, ढांचे-निष्पक्ष तरीका है। Databricks पहले श्रेणी का MCP समर्थन भेजता है — यूनिटी कैटलॉग फ़ंक्शंस और वेक्टर खोज के लिए प्रबंधित सर्वर, और बाहरी, तीसरे पक्ष के MCP सर्वरों के लिए एक प्रबंधित-प्रॉक्सी रास्ता। एक बाहरी MCP सर्वर उन उपकरणों का सेट बन जाता है जिन्हें एजेंट कॉल कर सकता है, उसी यूनिटी कैटलॉग कनेक्शन मॉडल द्वारा शासित होता है जैसा कि शेष कार्यक्षेत्र के लिए होता है।
यह पोस्ट Scrapeless MCP सर्वर को एक Databricks एजेंट में उस बाहरी-सर्वर पथ के माध्यम से वायर करती है। एक यूनिटी कैटलॉग कनेक्शन और एक DatabricksMCPClient एजेंट को Google खोज, JavaScript रेंडरिंग, और एक पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्रदान करते हैं, जिसे आप पहले से अपने मोज़ेक एआई एजेंट को पास करते समय वही संकेतों के माध्यम से पहुँचा जा सकता है। एक TypeScript क्लाइंट के माध्यम से वही Scrapeless सतह देखने के लिए, मास्ट्रा एकीकरण देखें।
आप इसके साथ क्या कर सकते हैं
- एक मोज़ेक एआई एजेंट के अंदर लाइव SERP अनुसंधान। एजेंट से एक प्रश्न के लिए
google_searchचलाने के लिए कहें और शीर्ष जैविक पंक्तियों को JSON के रूप में वापस सौंपें, ताकि अनुसंधान आपके Databricks ऐप के अंदर हो न कि एक अलग ब्राउज़र टैब में। - प्रतिस्पर्धी और मूल्य स्नैपशॉट जो एक डेल्टा तालिका को खिलाते हैं। प्रॉम्प्ट में एक URL पास करें, एजेंट से पृष्ठ को रेंडर करने के लिए कहें और योजना नाम, कीमतें और सुविधाएँ एक संरचित रिकॉर्ड में निकालें जो आपका कार्य लेकहाउस में वापस लिखता है।
- प्रतिक्रिया को आधार देने वाली डॉक और चेंजलॉग लुकअप। एजेंट से किसी पुस्तकालय के वर्तमान दस्तावेज़ या रिलीज़ नोट्स को साफ़ मार्कडाउन के रूप में लाने के लिए कहें और रेंडर किए गए पाठ के खिलाफ तर्क करें न कि API की पुरानी याददाश्त के खिलाफ।
- योजना एजेंट के लिए बाजार और प्रवृत्ति जांच। एक लक्षित क्षेत्र में एक विषय के लिए रुचि संकेतों को खींचने के लिए
google_trendsका उपयोग करें, फिर वर्तमान साक्ष्य के साथ पूर्वानुमान, सामग्री योजनाएँ, या प्रयोगात्मक विचारों को बीज दें। - टाइप रिकॉर्ड में JavaScript-पृष्ठ निकासी। एजेंट को एक एकल-पृष्ठ ऐप पर लक्षित करें; क्लाउड ब्राउज़र इसे हाइड्रेट करता है और एजेंट परिणाम को एक ऑब्जेक्ट में पार्स करता है जिसे आपका डाउनस्ट्रीम कार्य उपयोग करता है।
- मल्टी-स्टेप ब्राउज़र धाराएँ।
browser_goto,browser_click,browser_type, औरbrowser_scrollको जोड़ें ताकि एजेंट पृष्ठ संख्या चलाए, पैनल का विस्तार करे, या निकासी से पहले एक विज़ार्ड के माध्यम से कदम उठाए। - एक एजेंट टर्न में खोज-फिर-पढ़ने की पाइपलाइंस।
google_searchकोscrape_markdownके साथ Combine करें ताकि एजेंट शीर्ष परिणामों को पाए, प्रत्येक को पढ़े, और उन्हें एजेंट लूप को छोड़े बिना संक्षेपित करे।
Scrapeless MCP सर्वर क्यों
Scrapeless MCP सर्वर एक एआई एजेंट और लाइव वेब के बीच एक कस्टमाइज़ेबल, एंटी-डिटेक्शन ब्रिज है। विशेष रूप से Databricks एजेंट के लिए, यह लाता है:
- एक एंटी-डिटेक्शन क्लाउड ब्राउज़र जो JavaScript रेंडरिंग करता है। पृष्ठ निकासी से पहले एक पूर्ण Scrapeless Scraping Browser में हाइड्रेट होते हैं, इसलिए SPAs, अनंत-स्क्रॉल फ़ीड, और लेज़ी-लोडेड पैनल पहले श्रेणी के लक्ष्यों बन जाते हैं
browser_gotoके साथbrowser_get_htmlके लिए। - 195+ देशों में रेजिडेंशियल प्रॉक्सी। भू-बंधन क्वेरीज़ उन लिस्टिंग को लौटाती हैं जो एक स्थानीय उपयोगकर्ता देखेगा, प्रॉक्सी ईग्रस पूरी तरह से Scrapeless पक्ष पर प्रबंधित किया जाता है न कि आपकी Databricks नेटवर्किंग के अंदर।
- एक बाहरी एंडपॉइंट, कोई स्क्रैपर कोड होस्ट करने की आवश्यकता नहीं। सर्वर
https://api.scrapeless.com/mcpपर एक प्रबंधित HTTP एंडपॉइंट के रूप में चलता है; Databricks इसे एक यूनिटी कैटलॉग कनेक्शन में लपेटता है, इसलिए निर्माण, Databricks ऐप के रूप में तैनाती, या कनेक्शन स्वयं के अलावा रखरखाव के लिए कुछ नहीं है। - SERP, स्टेटलेस स्क्रैपिंग, और पूर्ण ब्राउज़र ऑटोमेशन में फैले 21 उपकरण।
google_searchऔरgoogle_trendsSERP डेटा को कवर करते हैं,scrape_html,scrape_markdown, औरscrape_screenshotएकल-शॉट पृष्ठ फ़ेच को कवर करते हैं, और 16browser_*उपकरण स्टेटफुल नेविगेशन, क्लिक करना, टाइप करना, स्क्रॉलिंग और स्क्रीनशॉट कवर करते हैं। - अन्य Databricks उपकरणों की तरह शासन किया। क्योंकि सर्वर यूनिटी कैटलॉग HTTP कनेक्शन के माध्यम से आता है, इसलिए इसे आपके अन्य कनेक्शनों के समान अनुमति मॉडल के साथ प्रबंधित किया जाता है, और API टोकन कनेक्शन में रहता है न कि एजेंट कोड में।
फ्री प्लान कनेक्शन पंजीकृत करने और वास्तविक प्रम्प्ट चलाने के लिए पर्याप्त है; जब आप इसे पार कर लेते हैं तो मूल्य निर्धारण पृष्ठ पर कोटा की तुलना करें। app.scrapeless.com पर फ्री प्लान पर अपने API कुंजी प्राप्त करें।
पूर्वापेक्षाएँ
- Mosaic AI एजेंट फ्रेमवर्क उपलब्ध Databricks कार्यक्षेत्र, और यूनिटी कैटलॉग कनेक्शन बनाने के लिए अनुमतियाँ। बाहरी-MCP मार्ग एक प्रबंधित प्रॉक्सी का उपयोग करता है जो कनेक्शन को फ्रंट करता है जिसे आप पंजीकृत करते हैं।
- एजेंट के LLM के लिए एक मॉडल सर्विंग एंडपॉइंट। एजेंट लूप को एक कार्यशील मॉडल की आवश्यकता होती है - एक Databricks फाउंडेशन मॉडल एंडपॉइंट या एक बाहरी मॉडल - पहले कोई भी उपकरण कॉल रन हो।
- एक Scrapeless खाता और API कुंजी — app.scrapeless.com पर फ्री प्लान पर साइन अप करें और Settings → API Key Management से कुंजी कॉपी करें।
- आपकी नोटबुक या नौकरी में एजेंट निर्भरता स्थापित की गई:
mcp,databricks-mcp,databricks-sdk,databricks-agents, औरmlflow। - Python और Databricks नोटबुक के साथ बुनियादी परिचितता — सेटअप एक कनेक्शन plus एक छोटा क्लाइंट परिभाषा है।
नोट: यूनिटी कैटलॉग कनेक्शन पंजीकृत करना और प्रबंधित प्रॉक्सी को कॉल करना एक सक्रिय Databricks कार्यक्षेत्र की आवश्यकता होती है। नीचे दी गई_steps इस प्रवाह को डोक्यूमेंट किया गया है; उन्होंने जो Scrapeless टूल सतह प्रदान की है उसे पुष्टि अनुभाग में
https://api.scrapeless.com/mcpके विरुद्ध सीधे सत्यापित किया गया है।
Databricks एजेंट से Scrapeless कनेक्ट करें
सेटअप में पांच कदम हैं; प्रत्येक स्वतंत्र रूप से सत्यापित किया जा सकता है।
1. क्लाइंट पैकेज स्थापित करें
अपनी नोटबुक या एजेंट परियोजना में, MCP क्लाइंट और Databricks एजेंट निर्भरता स्थापित करें:
bash
pip install mcp databricks-mcp "databricks-sdk[openai]" databricks-agents mlflow
databricks-mcp वह DatabricksMCPClient प्रदान करता है जो प्रबंधित प्रॉक्सी से बात करता है, और mcp निचली मॉडल संदर्भ प्रोटोकॉल मूल तत्व (ClientSession, स्ट्रीम करने योग्य HTTP परिवहन) प्रदान करता है — जो प्रत्येक उपकरण कॉल को एक JSON-RPC 2.0 अनुरोध के रूप में फ्रेम करता है — जब आप सीधे एंडपॉइंट से कनेक्ट करते हैं।
2. Scrapeless को एक Unity Catalog कनेक्शन के रूप में रजिस्टर करें (स्टोर्ड क्रेडेंशियल)
एक Databricks एजेंट Unity Catalog HTTP कनेक्शन के माध्यम से एक बाहरी MCP सर्वर तक पहुंचता है। Scrapeless एंडपॉइंट की ओर इशारा करते हुए कनेक्शन बनाएं, इसे MCP कनेक्शन के रूप में चिह्नित करें, और Scrapeless कुंजी को एक बियरर-शैली हेडर क्रेडेंशियल के रूप में संग्रहीत करें। मेजबान एकमात्र क्षेत्र है जो कार्यक्षेत्रों के बीच बदलता है:
sql
-- Scrapeless MCP सर्वर के लिए Unity Catalog HTTP कनेक्शन।
-- UI में इसे MCP कनेक्शन के रूप में चिह्नित करें ("क्या mcp कनेक्शन है"),
-- और Scrapeless कुंजी को x-api-token हेडर क्रेडेंशियल के रूप में प्रदान करें।
CREATE CONNECTION scrapeless_mcp
TYPE HTTP
OPTIONS (
host 'https://api.scrapeless.com',
base_path '/mcp',
bearer_token 'your_api_token_here'
);
एक बार पंजीकृत होने के बाद, Databricks एजेंट कोड को इसके प्रबंधित प्रॉक्सी के माध्यम से सर्वर प्रदान करता है https://<workspace-host>/api/2.0/mcp/external/scrapeless_mcp — एजेंट कोड कभी भी Scrapeless टोकन को नहीं रखता है; यह Databricks के लिए प्रमाणीकरण करता है, और Databricks Scrapeless के लिए प्रॉक्सी करते समय स्टोर किया गया क्रेडेंशियल संलग्न करता है।
3. या HTTP-स्ट्रीम करने के माध्यम से सीधे एंडपॉइंट से कनेक्ट करें
जब आप तैनात एजेंट के बाहर एकीकरण के प्रोटोटाइप कर रहे होते हैं — एक स्थानीय स्क्रिप्ट, एक नोटबुक स्पाइंक — तो आप मानक MCP SDK के साथ प्रॉक्सी के बजाय सीधे Scrapeless एंडपॉइंट से बात कर सकते हैं। कुंजी को स्ट्रीम करने योग्य HTTP परिवहन पर x-api-token हेडर के रूप में पास करें:
python
# pip install mcp
import asyncio, os
from mcp import ClientSession
from mcp.client.streamable_http import streamablehttp_client
URL = "https://api.scrapeless.com/mcp"
async def main():
headers = {"x-api-token": os.environ["SCRAPELESS_KEY"]}
async with streamablehttp_client(URL, headers=headers) as (read, write, _):
async with ClientSession(read, write) as session:
await session.initialize()
tools = await session.list_tools()
print([t.name for t in tools.tools])
asyncio.run(main())
Scrapeless MCP सर्वर अपनी कुंजी को stdio लॉन्च में SCRAPELESS_KEY से पढ़ता है, लेकिन HTTP-स्ट्रीम करने के दौरान वही मान x-api-token हेडर के रूप में भेजा जाता है — दोनों एक समान कुंजी ले जाते हैं। इसे हार्डकोड करने के बजाय वातावरण में रखें (export SCRAPELESS_KEY=...)। सर्वर स्रोत Scrapeless MCP सर्वर रिपोजिटरी में जीवनित है।
4. उपकरणों की सूची बनाएं और उन्हें एजेंट से संलग्न करें
एजेंट कोड में, प्रबंधित-प्रॉक्सी URL और एक WorkspaceClient के खिलाफ एक DatabricksMCPClient तैयार करें, फिर उपकरणों की सूची बनाएं। लौटाए गए उपकरण परिभाषाओं को आपके एजेंट फ्रेमवर्क के उपकरण प्रकार में परिवर्तित करें — Mosaic AI एजेंट आमतौर पर एक MLflow ChatAgent के रूप में LangGraph ग्राफ पर लिखे जाते हैं, इसलिए प्रत्येक MCP उपकरण ChatDatabricks मॉडल पर एक बंधे हुए उपकरण में बदल जाता है:
python
from databricks.sdk import WorkspaceClient
from databricks_mcp import DatabricksMCPClient
workspace = WorkspaceClient()
proxy_url = f"{workspace.config.host}/api/2.0/mcp/external/scrapeless_mcp"
mcp_client = DatabricksMCPClient(server_url=proxy_url, workspace_client=workspace)
tools = mcp_client.list_tools() # कनेक्शन द्वारा शासित 21 Scrapeless उपकरण
# उपकरण स्कीमाओं को एजेंट के मॉडल से बंधे, फिर एजेंट ग्राफ का निर्माण करें।
tool_specs = [
{"name": t.name, "description": t.description, "input_schema": t.inputSchema}
for t in tools
]
DatabricksMCPClient.list_tools() वही उपकरण परिभाषाएँ लौटाता है जो सर्वर रिपोर्ट करता है — नाम, विवरण और इनपुट स्कीमा — ताकि एजेंट की योजना पूरी Scrapeless सतह को देख सके। आप उन स्कीमाओं को उस तरह से बंधते हैं जैसे आप किसी भी Mosaic AI उपकरण को बंधते हैं, फिर जब मॉडल इसे चुनता है तो mcp_client.call_tool(name, arguments) के माध्यम से उपकरण का कॉल करें।
5. 21 उपकरणों की गणना करके सत्यापित करें
उपकरणों की सूची बनाना और उनके नाम प्रिंट करना यह पुष्टि करता है कि हैंडशेक पूरा हुआ और सर्वर अपनी पूरी सतह की रिपोर्ट कर रहा है:
python
tools = mcp_client.list_tools()
print(len(tools), [t.name for t in tools])
आउटपुट सर्वर के 21 उपकरणों को बिना प्रिफिक्स के नामों के रूप में सूचीबद्ध करता है — Google डेटा उपकरण (google_search, google_trends), एक-बार के पृष्ठ सहायक (scrape_html, scrape_markdown, scrape_screenshot), और क्लाउड-ब्राउज़र प्राइमिटिव (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close)। सर्वर उन्हें बिना प्रीफिक्स के निकालता है; जिस भी क्लाइंट ने उन्हें लोड किया — Databricks प्रॉक्सी, कच्चा MCP SDK, एक TypeScript एडाप्टर — वह अपने खुद के नामस्थान को ऊपर लागू करता है।
आप वास्तव में इसे कैसे उपयोग करते हैं: अपने एजेंट को प्रॉम्प्ट करें
प्रयोगकर्ता की कनेक्शन रजिस्ट्रेशन और टूल बाइंडिंग के बाद, आप अपने डेटाब्रिक्स एजेंट से बात करके लाइव वेब डेटा प्राप्त करते हैं - हाथ से टूल कॉल लिखने के बजाय। एजेंट उन टूल की सूची को पढ़ता है जिसे Scrapeless MCP सर्वर उजागर करता है और आवश्यकतानुसार google_search, scrape_markdown, या browser_* टूल चुनता है, प्राकृतिक भाषा के कार्य से उन्हें बारी-बारी से संकलित करता है। आपकी ओर से कोई टूल JSON तैयार करने की आवश्यकता नहीं है; आप पहले जैसे एक मोज़ेक एआई एजेंट को एक नोटबुक सेल में या तैनात एंडपॉइंट के खिलाफ एजेंट को बुलाते हैं।
आप जो प्रम्प्ट पेस्ट कर सकते हैं
| प्रम्प्ट | एजेंट क्या करता है |
|---|---|
"lakehouse vs warehouse 2026 के लिए शीर्ष गूगल परिणाम खोजें और उन्हें JSON के रूप में लौटाएँ।" |
google_search के साथ q, hl, gl → टाइप की गई परिणाम पंक्तियाँ। |
"अभी अमेरिका में data engineering के लिए कौन से खोज विषय उभर रहे हैं?" |
google_trends। |
"https://example.com/docs पर पृष्ठ को साफ markdown के रूप में खींचें।" |
scrape_markdown। |
"https://pricing.example.com खोलें, यह एक JavaScript ऐप है — इसे रेंडर करें और योजना का नाम, कीमत और विशेषताएँ JSON के रूप में निकालें।" |
browser_create → browser_goto → browser_get_html → टाइप की गई निकासी। |
"https://a.example.com/pricing और https://b.example.com/pricing के मूल्य निर्धारण पृष्ठों की तुलना करें और मुझे बताएं कि वे कहाँ भिन्न हैं।" |
browser_create → browser_goto (A) → browser_get_html → browser_goto (B) → browser_get_html → अंतर। |
"https://example.com/landing का एक पूर्ण पृष्ठ स्क्रीनशॉट लें।" |
scrape_screenshot। |
"https://example.com/jobs खोलें, लिस्टिंग लोड होने का इंतजार करें, पृष्ठ का स्नैपशॉट लें, फिर हर नौकरी का शीर्षक और स्थान JSON के रूप में निकालें।" |
browser_create → browser_goto → browser_wait_for → browser_snapshot → टाइप की गई निकासी → browser_close। |
कार्य किया गया उदाहरण
आप लिखते हैं (नोटबुक सेल में एकल एजेंट कॉल):
python
response = agent.predict({
"messages": [{
"role": "user",
"content": "google_search का उपयोग करें 'databricks mosaic ai agent framework' के लिए शीर्ष परिणाम खोजने के लिए और शीर्ष 3 को {title, link} के JSON ऐरे के रूप में लौटाएं।",
}]
})
print(response)
एजेंट की योजना (साधारण अंग्रेजी में):
google_searchकोq: "databricks mosaic ai agent framework",hl: "en",gl: "us"के साथ कॉल करें।- परिणाम पंक्तियों का एक एरे प्राप्त करें और
position,title, औरlinkफ़ील्ड पढ़ें। positionद्वारा क्रमबद्ध करें और पहले तीन पंक्तियों को बनाए रखें।- प्रत्येक पंक्ति को
{title, link}वस्तु में मैप करें। - एजेंट के उत्तर के रूप में JSON ऐरे लौटाएं।
आपको वापस क्या मिलता है (उदाहरणात्मक आकार - एजेंट इस तरह की पंक्तियों से काम करता है):
json
[
{ "title": "Mosaic AI Agent Framework — Databricks docs", "link": "https://example.com/agent-framework" },
{ "title": "Build and deploy an agent on Databricks", "link": "https://example.com/build-agent" },
{ "title": "Agent Bricks overview", "link": "https://example.org/agent-bricks" }
]
// फ़ील्ड नाम गूगल_सर्च पंक्ति के आकार से मेल खाते हैं; मान उदाहरणात्मक नमूने हैं।
स्टेटलेस डेटा टूल अपने पेलोड को Response:\n\n के साथ पूर्वनिर्धारित बоди के रूप में लौटाते हैं; एजेंट उस पूर्वनिर्धारण को पार्स करने से पहले खोलता है, इसलिए आप इसे उत्तर में कभी नहीं देखते हैं।
प्रम्प्ट का आकार
| यह कहें | प्रभाव |
|---|---|
| "…जर्मनी से" / "…जर्मन परिणाम" | proxyCountry के माध्यम से प्रस्थान को रूट करता है और खोज पर gl=de सेट करता है। |
| "…markdown के रूप में, नेव और बॉयलरप्लेट छोड़ें" | कच्चे HTML के बजाय साफ़ पाठ पेलोड के लिए scrape_markdown चुनता है। |
| "…पहले इसे रेंडर करें, यह एक सिंगल-पेज ऐप है" | निकासी को हाइड्रेटेड DOM के खिलाफ चलाने के लिए browser_* पथ को मजबूर करता है। |
| "…केवल शीर्ष 5" | लौटाई गई एरे को पहले पांच पंक्तियों तक सीमित करता है। |
| "…प्रत्येक परिणाम के लिए स्निपेट शामिल करें" | आउटपुट पंक्तियों में snippet फ़ील्ड को बनाए रखता है। |
| "…जब आप समाप्त करें तो सत्र बंद करें" | अंतिम browser_close को browser_create से sessionId के साथ जोड़ता है। |
मुफ़्त योजना पर अपना एपीआई कुंजी प्राप्त करें: app.scrapeless.com
नीचे सब कुछ तकनीकी संदर्भ है - टूल सतह, सटीक वापस आकार, और व्यवहार जो एजेंट आपके लिए संभालता है।
Scrapeless MCP टूल सतह
एक बार कनेक्शन लाइव होने के बाद, एजेंट 21 टूल देखता है जो SERP डेटा, स्टेटलेस स्क्रैपिंग, और पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र नियंत्रण को समाहित करता है। नीचे नाम सर्वर के कच्चे नाम हैं; जो भी क्लाइंट उन्हें लोड करता है वह अपनी स्वयं की नामस्पेस लागू करता है।
| टूल | यह क्या करता है |
|---|---|
google_search |
एक गूगल खोज (q, hl, gl) चलाता है और संरचित जैविक परिणाम पंक्तियाँ लौटाता है। |
google_trends |
एक क्वेरी के लिए गूगल ट्रेंड्स रुचि डेटा खींचता है। |
scrape_html |
एक URL प्राप्त करता है और उसका रेंडर किया हुआ HTML लौटाता है। |
scrape_markdown |
एक URL प्राप्त करता है और पृष्ठ के लिए साफ़ Markdown लौटाता है। |
scrape_screenshot |
एक लक्षित URL का स्क्रीनशॉट लेता है। |
browser_create |
एंटी-डिटेक्शन क्लाउड ब्राउजर पर एक सत्र खोलता है। |
browser_goto |
सत्र को एक URL पर नेविगेट करता है। |
browser_click |
लाइव पृष्ठ में एक तत्व पर क्लिक करता है। |
browser_type |
एक इनपुट या संपादन योग्य फ़ील्ड में पाठ टाइप करता है। |
browser_get_text / browser_get_html |
पृष्ठ के पाठ या HTML को पढ़ता है। |
browser_screenshot |
लाइव सत्र का स्क्रीनशॉट कैप्चर करता है। |
browser_snapshot |
पृष्ठ का एक पहुंच / संरचना स्नैपशॉट लौटाता है। |
browser_wait / browser_wait_for |
एक निश्चित अंतराल के लिए, या एक स्थिति / तत्व के लिए प्रतीक्षा करता है। |
browser_scroll / browser_scroll_to |
पृष्ठ को स्क्रॉल करता है, या एक विशिष्ट तत्व की ओर। |
browser_go_back / browser_go_forward |
सत्र के इतिहास में नेविगेट करता है। |
browser_press_key |
पृष्ठ पर एक कीबोर्ड कुंजी भेजता है। |
browser_close |
क्लाउड ब्राउज़र सत्र समाप्त करता है। |
आपको क्या वापस मिलता है
एक google_search कॉल एक JSON के रूप में एन्कोडेड जैविक परिणाम पंक्तियों का एक ऐरे लौटाता है। प्रत्येक पंक्ति में समान कुंजियाँ होती हैं, ताकि एजेंट सीधे शीर्षक, लिंक और स्निपेट पर मैप कर सके:
json
// फ़ील्ड नाम google_search टूल आउटपुट को दर्शाते हैं; मान चित्रण के नमूने हैं।
[
{
"position": 1,
"title": "Databricks पर एजेंट बनाना: एक पूर्ण मार्गदर्शिका",
"link": "https://example.com/databricks-agents",
"snippet": "Mosaic AI एजेंट फ्रेमवर्क पर एजेंट बनाने और तैनात करने के लिए एक चरण-दर-चरण मार्गदर्शिका।",
"source": "example.com"
},
{
"position": 2,
"title": "एजेंटों को बाहरी डेटा से कनेक्ट करना",
"link": "https://example.org/agent-data",
"snippet": "डेटा निकालने से पहले JavaScript पृष्ठों को कैसे प्रस्तुत करें।",
"source": "example.org"
}
]
कुछ ईमानदार अवलोकन एक बार जब आप प्रॉम्प्ट चलाना शुरू करते हैं:
- Stateless टूल जैसे
google_searchऔरscrape_markdownएक निकाय लौटाते हैं जिसेResponse:\n\nद्वारा पूर्वनिर्धारित किया गया है और इसके बाद JSON पेलोड है; एजेंट स्वचालित रूप से उस प्रीफिक्स को अनरैप करता है, ताकि आप डेटा के साथ काम कर सकें, न कि रैपर के साथ। browser_*टूल बिनाResponse:\n\nप्रीफिक्स के सामान्य पाठ लौटाते हैं।- टूल तर्क camelCase में होते हैं:
sessionId,proxyCountry, और समान फ़ील्ड को ठीक उसी तरह पास करें जैसा नामित किया गया है। proxyCountryएक अनुरोध है, कोई गारंटी नहीं — यह आपके खाते पर कॉन्फ़िगर किए गए क्षेत्र पर निर्भर कर सकता है, इसलिए सुनिश्चित करें कि जब भू-लक्ष्यण महत्वपूर्ण हो तो निकास क्षेत्र की पुष्टि करें।- टूल आउटपुट में मान सामग्री पर निर्भर होते हैं: परिणाम की गिनती, क्रम, और स्निपेट पाठ लाइव प्रश्न के साथ भिन्न होते हैं।
निष्कर्ष: Databricks से खोजें, रेंडर करें और ब्राउज़ करें
पूरी एकीकरण एक यूनिटी कैटलॉग कनेक्शन के साथ-साथ प्राकृतिक-भाषा प्रॉम्प्ट्स में संकुचित होती है। Scrapeless को एक MCP कनेक्शन के रूप में पंजीकृत करते हुए, DatabricksMCPClient.list_tools() आपके एजेंट के लिए 21 उपकरणों का संचालन करता है, और API टोकन कनेक्शन में कोड के बजाय रखा जाता है, एक Databricks एजेंट को लाइव Google खोज, JavaScript रेंडरिंग, और पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्राप्त होता है — बिल्कुल वही वेब लेयर जो लेकहाउस अपने आप नहीं भेजता है। आप कार्य का वर्णन करते हैं; एजेंट उपकरण का चयन करता है।
यदि आप अन्य क्लाइंट को वायर्ड कर रहे हैं, तो वही Scrapeless MCP सर्वर उनमें भी जोड़ा जा सकता है: TypeScript पथ के लिए Mastra एकीकरण और दूसरे एजेंट रनटाइम के लिए Pi एजेंट एकीकरण देखें। अपने API कुंजी को यूनिटी कैटलॉग कनेक्शन में रखें, एक बार अंत बिंदु को पंजीकृत करें, उपकरणों की सूची बनाएं, और एजेंट को चुनने दें। पूर्ण संदर्भ docs.scrapeless.com पर।
अपनी AI-शक्ति वाली डेटा पाइपलाइन बनाने के लिए तैयार हैं?
हमारे समुदाय में शामिल हों, एक मुफ्त योजना का दावा करें और डेवलपर्स से जुड़ें जो Databricks + Scrapeless MCP एजेंट बना रहे हैं: Discord · Telegram.
फ्री स्क्रैपिंग ब्राउज़र रनटाइम के लिए app.scrapeless.com पर साइन अप करें और ऊपर दिए गए एकीकरण को उन SERPs, पृष्ठों, और क्षेत्रों के लिए अनुकूलित करें जिनकी आपके Databricks एजेंटों को आवश्यकता है। पूर्ण संदर्भ docs.scrapeless.com पर।
सामान्य प्रश्न
प्रश्न: Databricks एजेंट को वेब एक्सेस के लिए MCP सर्वर की आवश्यकता क्यों है?
क्योंकि एक मोज़ेक एआई एजेंट केवल उन उपकरणों को कॉल कर सकता है जिन्हें आप इसके साथ पंजीकृत करते हैं, और इसमें कोई अंतर्निहित वेब खोज या ब्राउज़र नहीं है। एमसीपी मानक, ढाँचा-स्वतंत्र तरीका है उस क्षमता को जोड़ने का, और डाटाब्रिक्स प्रबंधित प्रॉक्सी के माध्यम से बाहरी एमसीपी सर्वरों का समर्थन करता है। स्क्रैपलेस को कनेक्ट करना एजेंट को लाइव गूगल सर्च, प्रस्तुत पृष्ठ पहुँच, और एक ही बार में पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्रदान करता है।
प्रश्न: डाटाब्रिक्स स्क्रैपलेस जैसे बाहरी एमसीपी सर्वर से कैसे जुड़ता है?
एक यूनिटी कैटलॉग HTTP कनेक्शन के माध्यम से जिसे एमसीपी कनेक्शन के रूप में चिह्नित किया गया है। आप https://api.scrapeless.com/mcp को कनेक्शन के रूप में पंजीकृत करते हैं, स्क्रैपलेस x-api-token को इसके प्रमाण पत्र के रूप में स्टोर करते हैं, और डाटाब्रिक्स इसे एजेंट कोड के लिए https://<workspace-host>/api/2.0/mcp/external/<connection_name> पर उजागर करता है। एजेंट कोड उस प्रॉक्सी यूआरएल के खिलाफ DatabricksMCPClient का उपयोग करता है, इसलिए स्क्रैपलेस टोकन कनेक्शन में रहता है और एजेंट में कभी नहीं दिखाई देता।
प्रश्न: कौन सा वातावरण चर या हेडर स्क्रैपलेस कुंजी रखता है?
सर्वर का stdio लॉन्च SCRAPELESS_KEY पढ़ता है; HTTP अंत बिंदु x-api-token हेडर से वही मान पढ़ता है। जब आप यूनिटी कैटलॉग कनेक्शन पंजीकृत करते हैं तो आप उस कुंजी को एक बार प्रमाण पत्र के रूप में स्टोर करते हैं, इसलिए तैनात एजेंट कोड इसे सीधे संभालता नहीं है।
प्रश्न: स्क्रैपलेस एमसीपी सर्वर कितने उपकरण प्रस्तुत करता है, और वे क्या हैं?
21 उपकरण: SERP डेटा के लिए google_search और google_trends; एक-बार पृष्ठ फेच के लिए scrape_html, scrape_markdown, और scrape_screenshot; और 16 browser_* उपकरण (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close) राज्यपूर्ण क्लाउड-ब्राउज़र नियंत्रण के लिए। सर्वर उन्हें नग्न नामों के रूप में प्रकाशित करता है; उन्हें लोड करने वाला क्लाइंट अपना स्वयं का नामस्थान लागू करता है।
प्रश्न: क्या मुझे स्क्रैपलेस को एक डाटाब्रिक्स ऐप के रूप में होस्ट करने की आवश्यकता है?
नहीं। एक डाटाब्रिक्स ऐप के रूप में एमसीपी सर्वर को होस्ट करना उन सर्वरों के लिए है जिन्हें आप स्वयं चलाते हैं। स्क्रैपलेस एक प्रबंधित बाहरी अंत बिंदु है, इसलिए आप इसे एक यूनिटी कैटलॉग HTTP कनेक्शन के रूप में पंजीकृत करते हैं और प्रबंधित बाहरी-एमसीपी प्रॉक्सी के माध्यम से तक पहुँचते हैं — आपके पक्ष पर किसी चीज़ को तैनात करने या चलाए रखने की आवश्यकता नहीं है।
प्रश्न: क्या मैं तैनात एजेंट के बाहर कनेक्शन का परीक्षण कर सकता हूँ?
हाँ। मानक एमसीपी पाइथन एसडीके को https://api.scrapeless.com/mcp पर x-api-token हेडर के साथ इंगित करें, initialize फिर list_tools() को कॉल करें, और आप वही 21 उपकरण देखेंगे जो तैनात एजेंट प्रॉक्सी के माध्यम से प्राप्त करता है। वह प्रत्यक्ष मार्ग आपके कुंजी और अंत बिंदु की पुष्टि करने का सबसे तेज़ तरीका है इससे पहले कि आप यूनिटी कैटलॉग कनेक्शन पंजीकृत करें।
प्रश्न: क्या इसके लिए एक विशिष्ट मॉडल की आवश्यकता है?
नहीं। एजेंट का मॉडल वह है जो भी डाटाब्रिक्स सेवा अंत बिंदु आप उसमें वायर करते हैं - एक फाउंडेशन मॉडल अंत बिंदु या एक बाहरी मॉडल। स्क्रैपलेस उपकरण मॉडल-स्वतंत्र हैं; एक ऐसा मॉडल चुनें जो उपकरण कॉल को अच्छे से संभालता है, और एजेंट स्क्रैपलेस उपकरणों को उसी तरह संकलित करता है चाहे प्रदाता जो भी हो।
प्रश्न: क्या एजेंट के माध्यम से वेब स्क्रैपिंग कानूनी है?
सार्वजनिक रूप से उपलब्ध डेटा को स्क्रैप करना सामान्यतः स्वीकार्य है, लेकिन आप इसके उपयोग के लिए जिम्मेदार हैं। प्रत्येक साइट की सेवा की शर्तों की समीक्षा करें और robots.txt का सम्मान करें, और याद रखें कि व्यक्तिगत डेटा और पहुँच के चारों ओर के नियम क्षेत्राधिकार के अनुसार भिन्न होते हैं। जब संदेह में हों, तो अपने विशिष्ट उपयोग मामले के लिए कानूनी सलाह लें।
प्रश्न: क्या आप इसे डाटाब्रिक्स के बिना उपयोग कर सकते हैं?
हाँ। स्क्रैपलेस एमसीपी सर्वर एक मानक एमसीपी सर्वर है, इसलिए कोई भी एमसीपी-संगत क्लाइंट इसे कॉल कर सकता है - या आप इसे JSON-RPC (initialize, फिर tools/list और tools/call) के माध्यम से सीधे चला सकते हैं। डाटाब्रिक्स इसके लिए एक होस्ट है, आवश्यकता नहीं।
स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।



