🎯 कस्टमाइज़ करने योग्य, डिटेक्शन-प्रतिरोधी क्लाउड ब्राउज़र जो स्व-विकसित Chromium द्वारा संचालित है, वेब क्रॉलर और एआई एजेंट्स के लिए डिज़ाइन किया गया। 👉अभी आज़माएं
वापस ब्लॉग पर

स्क्रेपलेस MCP सर्वर के साथ डाटाब्रिक्स को बेहतर बनाएं

Daniel Kim
Daniel Kim

Lead Scraping Automation Engineer

29-Jun-2026

TL;DR:

  • एक Databricks एजेंट आपके डेटा पर तर्क कर सकता है लेकिन जब तक आप एक उपकरण नहीं जोड़ते, तब तक वह लाइव वेब तक नहीं पहुँच सकता — Scrapeless MCP सर्वर सबसे साफ़ तरीका है। एजेंट ब्रिक्स और मोज़ेक एआई एजेंट एक मॉडल, यूनिटी कैटलॉग फ़ंक्शंस, और जिन उपकरणों को आप पंजीकृत करते हैं, के ऊपर योजना बनाते हैं। एक Scrapeless MCP सर्वर की ओर इशारा करें और एजेंट को लाइव Google खोज, JavaScript रेंडरिंग, और बिना हाथ से स्क्रैपर लिखे एक पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र मिल जाता है।
  • Databricks एक बाहरी MCP सर्वर तक एक यूनिटी कैटलॉग HTTP कनेक्शन और एक प्रबंधित प्रॉक्सी के माध्यम से पहुँचता है। आप https://api.scrapeless.com/mcp को यूनिटी कैटलॉग कनेक्शन के रूप में "क्या mcp कनेक्शन है" विकल्प के साथ पंजीकृत करते हैं, Scrapeless x-api-token को कनेक्शन क्रेडेंशियल के रूप में संग्रहित करते हैं, और Databricks इसे एजेंट कोड पर https://<workspace-host>/api/2.0/mcp/external/<connection_name> पर उजागर करता है।
  • DatabricksMCPClient.list_tools() एजेंट कोड में सतह को कनेक्ट करता है। प्रॉक्सी URL और एक WorkspaceClient के साथ एक DatabricksMCPClient बनाएं, list_tools() को कॉल करें, परिणामों को आपके एजेंट ढांचे के उपकरण प्रकार में परिवर्तित करें, और एजेंट को Google SERP स्क्रैपर, एक ट्रेंड्स स्क्रैपर, HTML/Markdown/Screenshot सहायक, और 16 ब्राउज़र-ऑटोमेशन उपकरण मिल जाते हैं।
  • Scrapeless MCP सर्वर 21 उपकरण प्रदान करता है। https://api.scrapeless.com/mcp के खिलाफ एक लाइव tools/list google_search, google_trends, scrape_html, scrape_markdown, scrape_screenshot, और 16 browser_* उपकरणों को लौटाता है — सर्वर इन्हें कच्चे नामों के रूप में उत्सर्जित करता है, और प्रत्येक क्लाइंट इन्हें लोड करते समय अपना स्वयं का नामस्थान जोड़ता है।
  • रेजिडेंशियल प्रॉक्सी और एंटी-डिटेक्शन क्लाउड-साइड चलते हैं। प्रत्येक टूल कॉल Scrapeless एंटी-डिटेक्शन क्लाउड ब्राउज़र के माध्यम से 195+ देशों में रेजिडेंशियल प्रॉक्सी के साथ मार्गदर्शित किया जाता है, इसलिए एजेंट को व्यावसायिक साइटों से बिना प्रॉक्सी या फिंगरप्रिंट सेटअप के एक रेंडर्ड, उपयोग योग्य प्रतिक्रिया मिलती है।
  • stdio या HTTP-स्ट्रीम करने योग्य परिवहन। स्थानीय एजेंट विकास के लिए आप सर्वर को npx के साथ प्रारंभ कर सकते हैं; एक तैनात मोज़ेक एआई एंडपॉइंट के लिए आप स्ट्रीम करने योग्य HTTP एंडपॉइंट पर इशारा करते हैं, जो ठीक वही है जिसे यूनिटी कैटलॉग कनेक्शन लपेटता है।
  • शुरू करने के लिए स्वतंत्र। नए Scrapeless खातों में मुफ्त स्क्रैपिंग ब्राउज़र रनटाइम शामिल है — app.scrapeless.com पर साइन अप करें।

परिचय: Databricks एजेंट को वेब का लाइव दृश्य दें

Databricks एजेंट ब्रिक्स और मोज़ेक एआई एजेंट ढांचा आपको एजेंट बनाने की अनुमति देता है जो आपके लेकहाउस पर तर्क करते हैं — यूनिटी कैटलॉग टेबल, वेक्टर इंडेक्स, शासित फ़ंक्शंस। एजेंट उन उपकरणों को कॉल करता है जो आप पंजीकृत करते हैं और कुछ नहीं। जो वह अपने आप नहीं कर सकता वह है वर्तमान में वेब को देखना। इसका ज्ञान मॉडल के प्रशिक्षण कटऑफ और जो कुछ भी आप इसके सामने रखते हैं, पर समाप्त होता है, इसलिए एक प्रश्न जैसे "इस प्रतिस्पर्धी की आज क्या कीमत है" या "इस प्रश्न के लिए वर्तमान शीर्ष परिणाम क्या है" के भीतर कार्यक्षेत्र में कोई उत्तर नहीं है।

यह सीमा जानबूझकर है: एक एजेंट की बाहरी दुनिया तक पहुंच ठीक उसी उपकरणों के सेट पर निर्भर करती है जो इसके साथ जुड़े होते हैं। इसलिए उपकरण परत वास्तविक समय के वेब एक्सेस को जोड़ने का स्थान है, और मॉडल संदर्भ प्रोटोकॉल (MCP) इसे करने का मानक, ढांचे-निष्पक्ष तरीका है। Databricks पहले श्रेणी का MCP समर्थन भेजता है — यूनिटी कैटलॉग फ़ंक्शंस और वेक्टर खोज के लिए प्रबंधित सर्वर, और बाहरी, तीसरे पक्ष के MCP सर्वरों के लिए एक प्रबंधित-प्रॉक्सी रास्ता। एक बाहरी MCP सर्वर उन उपकरणों का सेट बन जाता है जिन्हें एजेंट कॉल कर सकता है, उसी यूनिटी कैटलॉग कनेक्शन मॉडल द्वारा शासित होता है जैसा कि शेष कार्यक्षेत्र के लिए होता है।

यह पोस्ट Scrapeless MCP सर्वर को एक Databricks एजेंट में उस बाहरी-सर्वर पथ के माध्यम से वायर करती है। एक यूनिटी कैटलॉग कनेक्शन और एक DatabricksMCPClient एजेंट को Google खोज, JavaScript रेंडरिंग, और एक पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्रदान करते हैं, जिसे आप पहले से अपने मोज़ेक एआई एजेंट को पास करते समय वही संकेतों के माध्यम से पहुँचा जा सकता है। एक TypeScript क्लाइंट के माध्यम से वही Scrapeless सतह देखने के लिए, मास्ट्रा एकीकरण देखें।


आप इसके साथ क्या कर सकते हैं

  • एक मोज़ेक एआई एजेंट के अंदर लाइव SERP अनुसंधान। एजेंट से एक प्रश्न के लिए google_search चलाने के लिए कहें और शीर्ष जैविक पंक्तियों को JSON के रूप में वापस सौंपें, ताकि अनुसंधान आपके Databricks ऐप के अंदर हो न कि एक अलग ब्राउज़र टैब में।
  • प्रतिस्पर्धी और मूल्य स्नैपशॉट जो एक डेल्टा तालिका को खिलाते हैं। प्रॉम्प्ट में एक URL पास करें, एजेंट से पृष्ठ को रेंडर करने के लिए कहें और योजना नाम, कीमतें और सुविधाएँ एक संरचित रिकॉर्ड में निकालें जो आपका कार्य लेकहाउस में वापस लिखता है।
  • प्रतिक्रिया को आधार देने वाली डॉक और चेंजलॉग लुकअप। एजेंट से किसी पुस्तकालय के वर्तमान दस्तावेज़ या रिलीज़ नोट्स को साफ़ मार्कडाउन के रूप में लाने के लिए कहें और रेंडर किए गए पाठ के खिलाफ तर्क करें न कि API की पुरानी याददाश्त के खिलाफ।
  • योजना एजेंट के लिए बाजार और प्रवृत्ति जांच। एक लक्षित क्षेत्र में एक विषय के लिए रुचि संकेतों को खींचने के लिए google_trends का उपयोग करें, फिर वर्तमान साक्ष्य के साथ पूर्वानुमान, सामग्री योजनाएँ, या प्रयोगात्मक विचारों को बीज दें।
  • टाइप रिकॉर्ड में JavaScript-पृष्ठ निकासी। एजेंट को एक एकल-पृष्ठ ऐप पर लक्षित करें; क्लाउड ब्राउज़र इसे हाइड्रेट करता है और एजेंट परिणाम को एक ऑब्जेक्ट में पार्स करता है जिसे आपका डाउनस्ट्रीम कार्य उपयोग करता है।
  • मल्टी-स्टेप ब्राउज़र धाराएँ। browser_goto, browser_click, browser_type, और browser_scroll को जोड़ें ताकि एजेंट पृष्ठ संख्या चलाए, पैनल का विस्तार करे, या निकासी से पहले एक विज़ार्ड के माध्यम से कदम उठाए।
  • एक एजेंट टर्न में खोज-फिर-पढ़ने की पाइपलाइंस। google_search को scrape_markdown के साथ Combine करें ताकि एजेंट शीर्ष परिणामों को पाए, प्रत्येक को पढ़े, और उन्हें एजेंट लूप को छोड़े बिना संक्षेपित करे।

Scrapeless MCP सर्वर क्यों

Scrapeless MCP सर्वर एक एआई एजेंट और लाइव वेब के बीच एक कस्टमाइज़ेबल, एंटी-डिटेक्शन ब्रिज है। विशेष रूप से Databricks एजेंट के लिए, यह लाता है:

  • एक एंटी-डिटेक्शन क्लाउड ब्राउज़र जो JavaScript रेंडरिंग करता है। पृष्ठ निकासी से पहले एक पूर्ण Scrapeless Scraping Browser में हाइड्रेट होते हैं, इसलिए SPAs, अनंत-स्क्रॉल फ़ीड, और लेज़ी-लोडेड पैनल पहले श्रेणी के लक्ष्यों बन जाते हैं browser_goto के साथ browser_get_html के लिए।
  • 195+ देशों में रेजिडेंशियल प्रॉक्सी। भू-बंधन क्वेरीज़ उन लिस्टिंग को लौटाती हैं जो एक स्थानीय उपयोगकर्ता देखेगा, प्रॉक्सी ईग्रस पूरी तरह से Scrapeless पक्ष पर प्रबंधित किया जाता है न कि आपकी Databricks नेटवर्किंग के अंदर।
  • एक बाहरी एंडपॉइंट, कोई स्क्रैपर कोड होस्ट करने की आवश्यकता नहीं। सर्वर https://api.scrapeless.com/mcp पर एक प्रबंधित HTTP एंडपॉइंट के रूप में चलता है; Databricks इसे एक यूनिटी कैटलॉग कनेक्शन में लपेटता है, इसलिए निर्माण, Databricks ऐप के रूप में तैनाती, या कनेक्शन स्वयं के अलावा रखरखाव के लिए कुछ नहीं है।
  • SERP, स्टेटलेस स्क्रैपिंग, और पूर्ण ब्राउज़र ऑटोमेशन में फैले 21 उपकरण। google_search और google_trends SERP डेटा को कवर करते हैं, scrape_html, scrape_markdown, और scrape_screenshot एकल-शॉट पृष्ठ फ़ेच को कवर करते हैं, और 16 browser_* उपकरण स्टेटफुल नेविगेशन, क्लिक करना, टाइप करना, स्क्रॉलिंग और स्क्रीनशॉट कवर करते हैं।
  • अन्य Databricks उपकरणों की तरह शासन किया। क्योंकि सर्वर यूनिटी कैटलॉग HTTP कनेक्शन के माध्यम से आता है, इसलिए इसे आपके अन्य कनेक्शनों के समान अनुमति मॉडल के साथ प्रबंधित किया जाता है, और API टोकन कनेक्शन में रहता है न कि एजेंट कोड में।

फ्री प्लान कनेक्शन पंजीकृत करने और वास्तविक प्रम्प्ट चलाने के लिए पर्याप्त है; जब आप इसे पार कर लेते हैं तो मूल्य निर्धारण पृष्ठ पर कोटा की तुलना करें। app.scrapeless.com पर फ्री प्लान पर अपने API कुंजी प्राप्त करें।


पूर्वापेक्षाएँ

  • Mosaic AI एजेंट फ्रेमवर्क उपलब्ध Databricks कार्यक्षेत्र, और यूनिटी कैटलॉग कनेक्शन बनाने के लिए अनुमतियाँ। बाहरी-MCP मार्ग एक प्रबंधित प्रॉक्सी का उपयोग करता है जो कनेक्शन को फ्रंट करता है जिसे आप पंजीकृत करते हैं।
  • एजेंट के LLM के लिए एक मॉडल सर्विंग एंडपॉइंट। एजेंट लूप को एक कार्यशील मॉडल की आवश्यकता होती है - एक Databricks फाउंडेशन मॉडल एंडपॉइंट या एक बाहरी मॉडल - पहले कोई भी उपकरण कॉल रन हो।
  • एक Scrapeless खाता और API कुंजीapp.scrapeless.com पर फ्री प्लान पर साइन अप करें और Settings → API Key Management से कुंजी कॉपी करें।
  • आपकी नोटबुक या नौकरी में एजेंट निर्भरता स्थापित की गई: mcp, databricks-mcp, databricks-sdk, databricks-agents, और mlflow
  • Python और Databricks नोटबुक के साथ बुनियादी परिचितता — सेटअप एक कनेक्शन plus एक छोटा क्लाइंट परिभाषा है।

नोट: यूनिटी कैटलॉग कनेक्शन पंजीकृत करना और प्रबंधित प्रॉक्सी को कॉल करना एक सक्रिय Databricks कार्यक्षेत्र की आवश्यकता होती है। नीचे दी गई_steps इस प्रवाह को डोक्यूमेंट किया गया है; उन्होंने जो Scrapeless टूल सतह प्रदान की है उसे पुष्टि अनुभाग में https://api.scrapeless.com/mcp के विरुद्ध सीधे सत्यापित किया गया है।


Databricks एजेंट से Scrapeless कनेक्ट करें

सेटअप में पांच कदम हैं; प्रत्येक स्वतंत्र रूप से सत्यापित किया जा सकता है।

1. क्लाइंट पैकेज स्थापित करें

अपनी नोटबुक या एजेंट परियोजना में, MCP क्लाइंट और Databricks एजेंट निर्भरता स्थापित करें:

bash Copy
pip install mcp databricks-mcp "databricks-sdk[openai]" databricks-agents mlflow

databricks-mcp वह DatabricksMCPClient प्रदान करता है जो प्रबंधित प्रॉक्सी से बात करता है, और mcp निचली मॉडल संदर्भ प्रोटोकॉल मूल तत्व (ClientSession, स्ट्रीम करने योग्य HTTP परिवहन) प्रदान करता है — जो प्रत्येक उपकरण कॉल को एक JSON-RPC 2.0 अनुरोध के रूप में फ्रेम करता है — जब आप सीधे एंडपॉइंट से कनेक्ट करते हैं।

2. Scrapeless को एक Unity Catalog कनेक्शन के रूप में रजिस्टर करें (स्टोर्ड क्रेडेंशियल)

एक Databricks एजेंट Unity Catalog HTTP कनेक्शन के माध्यम से एक बाहरी MCP सर्वर तक पहुंचता है। Scrapeless एंडपॉइंट की ओर इशारा करते हुए कनेक्शन बनाएं, इसे MCP कनेक्शन के रूप में चिह्नित करें, और Scrapeless कुंजी को एक बियरर-शैली हेडर क्रेडेंशियल के रूप में संग्रहीत करें। मेजबान एकमात्र क्षेत्र है जो कार्यक्षेत्रों के बीच बदलता है:

sql Copy
-- Scrapeless MCP सर्वर के लिए Unity Catalog HTTP कनेक्शन।
-- UI में इसे MCP कनेक्शन के रूप में चिह्नित करें ("क्या mcp कनेक्शन है"),
-- और Scrapeless कुंजी को x-api-token हेडर क्रेडेंशियल के रूप में प्रदान करें।
CREATE CONNECTION scrapeless_mcp
TYPE HTTP
OPTIONS (
  host 'https://api.scrapeless.com',
  base_path '/mcp',
  bearer_token 'your_api_token_here'
);

एक बार पंजीकृत होने के बाद, Databricks एजेंट कोड को इसके प्रबंधित प्रॉक्सी के माध्यम से सर्वर प्रदान करता है https://<workspace-host>/api/2.0/mcp/external/scrapeless_mcp — एजेंट कोड कभी भी Scrapeless टोकन को नहीं रखता है; यह Databricks के लिए प्रमाणीकरण करता है, और Databricks Scrapeless के लिए प्रॉक्सी करते समय स्टोर किया गया क्रेडेंशियल संलग्न करता है।

3. या HTTP-स्ट्रीम करने के माध्यम से सीधे एंडपॉइंट से कनेक्ट करें

जब आप तैनात एजेंट के बाहर एकीकरण के प्रोटोटाइप कर रहे होते हैं — एक स्थानीय स्क्रिप्ट, एक नोटबुक स्पाइंक — तो आप मानक MCP SDK के साथ प्रॉक्सी के बजाय सीधे Scrapeless एंडपॉइंट से बात कर सकते हैं। कुंजी को स्ट्रीम करने योग्य HTTP परिवहन पर x-api-token हेडर के रूप में पास करें:

python Copy
# pip install mcp
import asyncio, os
from mcp import ClientSession
from mcp.client.streamable_http import streamablehttp_client

URL = "https://api.scrapeless.com/mcp"

async def main():
    headers = {"x-api-token": os.environ["SCRAPELESS_KEY"]}
    async with streamablehttp_client(URL, headers=headers) as (read, write, _):
        async with ClientSession(read, write) as session:
            await session.initialize()
            tools = await session.list_tools()
            print([t.name for t in tools.tools])

asyncio.run(main())

Scrapeless MCP सर्वर अपनी कुंजी को stdio लॉन्च में SCRAPELESS_KEY से पढ़ता है, लेकिन HTTP-स्ट्रीम करने के दौरान वही मान x-api-token हेडर के रूप में भेजा जाता है — दोनों एक समान कुंजी ले जाते हैं। इसे हार्डकोड करने के बजाय वातावरण में रखें (export SCRAPELESS_KEY=...)। सर्वर स्रोत Scrapeless MCP सर्वर रिपोजिटरी में जीवनित है।

4. उपकरणों की सूची बनाएं और उन्हें एजेंट से संलग्न करें

एजेंट कोड में, प्रबंधित-प्रॉक्सी URL और एक WorkspaceClient के खिलाफ एक DatabricksMCPClient तैयार करें, फिर उपकरणों की सूची बनाएं। लौटाए गए उपकरण परिभाषाओं को आपके एजेंट फ्रेमवर्क के उपकरण प्रकार में परिवर्तित करें — Mosaic AI एजेंट आमतौर पर एक MLflow ChatAgent के रूप में LangGraph ग्राफ पर लिखे जाते हैं, इसलिए प्रत्येक MCP उपकरण ChatDatabricks मॉडल पर एक बंधे हुए उपकरण में बदल जाता है:

python Copy
from databricks.sdk import WorkspaceClient
from databricks_mcp import DatabricksMCPClient

workspace = WorkspaceClient()
proxy_url = f"{workspace.config.host}/api/2.0/mcp/external/scrapeless_mcp"

mcp_client = DatabricksMCPClient(server_url=proxy_url, workspace_client=workspace)
tools = mcp_client.list_tools()  # कनेक्शन द्वारा शासित 21 Scrapeless उपकरण

# उपकरण स्कीमाओं को एजेंट के मॉडल से बंधे, फिर एजेंट ग्राफ का निर्माण करें।
tool_specs = [
    {"name": t.name, "description": t.description, "input_schema": t.inputSchema}
    for t in tools
]

DatabricksMCPClient.list_tools() वही उपकरण परिभाषाएँ लौटाता है जो सर्वर रिपोर्ट करता है — नाम, विवरण और इनपुट स्कीमा — ताकि एजेंट की योजना पूरी Scrapeless सतह को देख सके। आप उन स्कीमाओं को उस तरह से बंधते हैं जैसे आप किसी भी Mosaic AI उपकरण को बंधते हैं, फिर जब मॉडल इसे चुनता है तो mcp_client.call_tool(name, arguments) के माध्यम से उपकरण का कॉल करें।

5. 21 उपकरणों की गणना करके सत्यापित करें

उपकरणों की सूची बनाना और उनके नाम प्रिंट करना यह पुष्टि करता है कि हैंडशेक पूरा हुआ और सर्वर अपनी पूरी सतह की रिपोर्ट कर रहा है:

python Copy
tools = mcp_client.list_tools()
print(len(tools), [t.name for t in tools])

आउटपुट सर्वर के 21 उपकरणों को बिना प्रिफिक्स के नामों के रूप में सूचीबद्ध करता है — Google डेटा उपकरण (google_search, google_trends), एक-बार के पृष्ठ सहायक (scrape_html, scrape_markdown, scrape_screenshot), और क्लाउड-ब्राउज़र प्राइमिटिव (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close)। सर्वर उन्हें बिना प्रीफिक्स के निकालता है; जिस भी क्लाइंट ने उन्हें लोड किया — Databricks प्रॉक्सी, कच्चा MCP SDK, एक TypeScript एडाप्टर — वह अपने खुद के नामस्थान को ऊपर लागू करता है।


आप वास्तव में इसे कैसे उपयोग करते हैं: अपने एजेंट को प्रॉम्प्ट करें

प्रयोगकर्ता की कनेक्शन रजिस्ट्रेशन और टूल बाइंडिंग के बाद, आप अपने डेटाब्रिक्स एजेंट से बात करके लाइव वेब डेटा प्राप्त करते हैं - हाथ से टूल कॉल लिखने के बजाय। एजेंट उन टूल की सूची को पढ़ता है जिसे Scrapeless MCP सर्वर उजागर करता है और आवश्यकतानुसार google_search, scrape_markdown, या browser_* टूल चुनता है, प्राकृतिक भाषा के कार्य से उन्हें बारी-बारी से संकलित करता है। आपकी ओर से कोई टूल JSON तैयार करने की आवश्यकता नहीं है; आप पहले जैसे एक मोज़ेक एआई एजेंट को एक नोटबुक सेल में या तैनात एंडपॉइंट के खिलाफ एजेंट को बुलाते हैं।

आप जो प्रम्प्ट पेस्ट कर सकते हैं

प्रम्प्ट एजेंट क्या करता है
"lakehouse vs warehouse 2026 के लिए शीर्ष गूगल परिणाम खोजें और उन्हें JSON के रूप में लौटाएँ।" google_search के साथ q, hl, gl → टाइप की गई परिणाम पंक्तियाँ।
"अभी अमेरिका में data engineering के लिए कौन से खोज विषय उभर रहे हैं?" google_trends
"https://example.com/docs पर पृष्ठ को साफ markdown के रूप में खींचें।" scrape_markdown
"https://pricing.example.com खोलें, यह एक JavaScript ऐप है — इसे रेंडर करें और योजना का नाम, कीमत और विशेषताएँ JSON के रूप में निकालें।" browser_createbrowser_gotobrowser_get_html → टाइप की गई निकासी।
"https://a.example.com/pricing और https://b.example.com/pricing के मूल्य निर्धारण पृष्ठों की तुलना करें और मुझे बताएं कि वे कहाँ भिन्न हैं।" browser_createbrowser_goto (A) → browser_get_htmlbrowser_goto (B) → browser_get_html → अंतर।
"https://example.com/landing का एक पूर्ण पृष्ठ स्क्रीनशॉट लें।" scrape_screenshot
"https://example.com/jobs खोलें, लिस्टिंग लोड होने का इंतजार करें, पृष्ठ का स्नैपशॉट लें, फिर हर नौकरी का शीर्षक और स्थान JSON के रूप में निकालें।" browser_createbrowser_gotobrowser_wait_forbrowser_snapshot → टाइप की गई निकासी → browser_close

कार्य किया गया उदाहरण

आप लिखते हैं (नोटबुक सेल में एकल एजेंट कॉल):

python Copy
response = agent.predict({
    "messages": [{
        "role": "user",
        "content": "google_search का उपयोग करें 'databricks mosaic ai agent framework' के लिए शीर्ष परिणाम खोजने के लिए और शीर्ष 3 को {title, link} के JSON ऐरे के रूप में लौटाएं।",
    }]
})
print(response)

एजेंट की योजना (साधारण अंग्रेजी में):

  1. google_search को q: "databricks mosaic ai agent framework", hl: "en", gl: "us" के साथ कॉल करें।
  2. परिणाम पंक्तियों का एक एरे प्राप्त करें और position, title, और link फ़ील्ड पढ़ें।
  3. position द्वारा क्रमबद्ध करें और पहले तीन पंक्तियों को बनाए रखें।
  4. प्रत्येक पंक्ति को {title, link} वस्तु में मैप करें।
  5. एजेंट के उत्तर के रूप में JSON ऐरे लौटाएं।

आपको वापस क्या मिलता है (उदाहरणात्मक आकार - एजेंट इस तरह की पंक्तियों से काम करता है):

json Copy
[
  { "title": "Mosaic AI Agent Framework — Databricks docs", "link": "https://example.com/agent-framework" },
  { "title": "Build and deploy an agent on Databricks", "link": "https://example.com/build-agent" },
  { "title": "Agent Bricks overview", "link": "https://example.org/agent-bricks" }
]
// फ़ील्ड नाम गूगल_सर्च पंक्ति के आकार से मेल खाते हैं; मान उदाहरणात्मक नमूने हैं।

स्टेटलेस डेटा टूल अपने पेलोड को Response:\n\n के साथ पूर्वनिर्धारित बоди के रूप में लौटाते हैं; एजेंट उस पूर्वनिर्धारण को पार्स करने से पहले खोलता है, इसलिए आप इसे उत्तर में कभी नहीं देखते हैं।

प्रम्प्ट का आकार

यह कहें प्रभाव
"…जर्मनी से" / "…जर्मन परिणाम" proxyCountry के माध्यम से प्रस्थान को रूट करता है और खोज पर gl=de सेट करता है।
"…markdown के रूप में, नेव और बॉयलरप्लेट छोड़ें" कच्चे HTML के बजाय साफ़ पाठ पेलोड के लिए scrape_markdown चुनता है।
"…पहले इसे रेंडर करें, यह एक सिंगल-पेज ऐप है" निकासी को हाइड्रेटेड DOM के खिलाफ चलाने के लिए browser_* पथ को मजबूर करता है।
"…केवल शीर्ष 5" लौटाई गई एरे को पहले पांच पंक्तियों तक सीमित करता है।
"…प्रत्येक परिणाम के लिए स्निपेट शामिल करें" आउटपुट पंक्तियों में snippet फ़ील्ड को बनाए रखता है।
"…जब आप समाप्त करें तो सत्र बंद करें" अंतिम browser_close को browser_create से sessionId के साथ जोड़ता है।

मुफ़्त योजना पर अपना एपीआई कुंजी प्राप्त करें: app.scrapeless.com

नीचे सब कुछ तकनीकी संदर्भ है - टूल सतह, सटीक वापस आकार, और व्यवहार जो एजेंट आपके लिए संभालता है।


Scrapeless MCP टूल सतह

एक बार कनेक्शन लाइव होने के बाद, एजेंट 21 टूल देखता है जो SERP डेटा, स्टेटलेस स्क्रैपिंग, और पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र नियंत्रण को समाहित करता है। नीचे नाम सर्वर के कच्चे नाम हैं; जो भी क्लाइंट उन्हें लोड करता है वह अपनी स्वयं की नामस्पेस लागू करता है।

टूल यह क्या करता है
google_search एक गूगल खोज (q, hl, gl) चलाता है और संरचित जैविक परिणाम पंक्तियाँ लौटाता है।
google_trends एक क्वेरी के लिए गूगल ट्रेंड्स रुचि डेटा खींचता है।
scrape_html एक URL प्राप्त करता है और उसका रेंडर किया हुआ HTML लौटाता है।
scrape_markdown एक URL प्राप्त करता है और पृष्ठ के लिए साफ़ Markdown लौटाता है।
scrape_screenshot एक लक्षित URL का स्क्रीनशॉट लेता है।
browser_create एंटी-डिटेक्शन क्लाउड ब्राउजर पर एक सत्र खोलता है।
browser_goto सत्र को एक URL पर नेविगेट करता है।
browser_click लाइव पृष्ठ में एक तत्व पर क्लिक करता है।
browser_type एक इनपुट या संपादन योग्य फ़ील्ड में पाठ टाइप करता है।
browser_get_text / browser_get_html पृष्ठ के पाठ या HTML को पढ़ता है।
browser_screenshot लाइव सत्र का स्क्रीनशॉट कैप्चर करता है।
browser_snapshot पृष्ठ का एक पहुंच / संरचना स्नैपशॉट लौटाता है।
browser_wait / browser_wait_for एक निश्चित अंतराल के लिए, या एक स्थिति / तत्व के लिए प्रतीक्षा करता है।
browser_scroll / browser_scroll_to पृष्ठ को स्क्रॉल करता है, या एक विशिष्ट तत्व की ओर।
browser_go_back / browser_go_forward सत्र के इतिहास में नेविगेट करता है।
browser_press_key पृष्ठ पर एक कीबोर्ड कुंजी भेजता है।
browser_close क्लाउड ब्राउज़र सत्र समाप्त करता है।

आपको क्या वापस मिलता है

एक google_search कॉल एक JSON के रूप में एन्कोडेड जैविक परिणाम पंक्तियों का एक ऐरे लौटाता है। प्रत्येक पंक्ति में समान कुंजियाँ होती हैं, ताकि एजेंट सीधे शीर्षक, लिंक और स्निपेट पर मैप कर सके:

json Copy
// फ़ील्ड नाम google_search टूल आउटपुट को दर्शाते हैं; मान चित्रण के नमूने हैं।
[
  {
    "position": 1,
    "title": "Databricks पर एजेंट बनाना: एक पूर्ण मार्गदर्शिका",
    "link": "https://example.com/databricks-agents",
    "snippet": "Mosaic AI एजेंट फ्रेमवर्क पर एजेंट बनाने और तैनात करने के लिए एक चरण-दर-चरण मार्गदर्शिका।",
    "source": "example.com"
  },
  {
    "position": 2,
    "title": "एजेंटों को बाहरी डेटा से कनेक्ट करना",
    "link": "https://example.org/agent-data",
    "snippet": "डेटा निकालने से पहले JavaScript पृष्ठों को कैसे प्रस्तुत करें।",
    "source": "example.org"
  }
]

कुछ ईमानदार अवलोकन एक बार जब आप प्रॉम्प्ट चलाना शुरू करते हैं:

  • Stateless टूल जैसे google_search और scrape_markdown एक निकाय लौटाते हैं जिसे Response:\n\n द्वारा पूर्वनिर्धारित किया गया है और इसके बाद JSON पेलोड है; एजेंट स्वचालित रूप से उस प्रीफिक्स को अनरैप करता है, ताकि आप डेटा के साथ काम कर सकें, न कि रैपर के साथ।
  • browser_* टूल बिना Response:\n\n प्रीफिक्स के सामान्य पाठ लौटाते हैं।
  • टूल तर्क camelCase में होते हैं: sessionId, proxyCountry, और समान फ़ील्ड को ठीक उसी तरह पास करें जैसा नामित किया गया है।
  • proxyCountry एक अनुरोध है, कोई गारंटी नहीं — यह आपके खाते पर कॉन्फ़िगर किए गए क्षेत्र पर निर्भर कर सकता है, इसलिए सुनिश्चित करें कि जब भू-लक्ष्यण महत्वपूर्ण हो तो निकास क्षेत्र की पुष्टि करें।
  • टूल आउटपुट में मान सामग्री पर निर्भर होते हैं: परिणाम की गिनती, क्रम, और स्निपेट पाठ लाइव प्रश्न के साथ भिन्न होते हैं।

निष्कर्ष: Databricks से खोजें, रेंडर करें और ब्राउज़ करें

पूरी एकीकरण एक यूनिटी कैटलॉग कनेक्शन के साथ-साथ प्राकृतिक-भाषा प्रॉम्प्ट्स में संकुचित होती है। Scrapeless को एक MCP कनेक्शन के रूप में पंजीकृत करते हुए, DatabricksMCPClient.list_tools() आपके एजेंट के लिए 21 उपकरणों का संचालन करता है, और API टोकन कनेक्शन में कोड के बजाय रखा जाता है, एक Databricks एजेंट को लाइव Google खोज, JavaScript रेंडरिंग, और पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्राप्त होता है — बिल्कुल वही वेब लेयर जो लेकहाउस अपने आप नहीं भेजता है। आप कार्य का वर्णन करते हैं; एजेंट उपकरण का चयन करता है।

यदि आप अन्य क्लाइंट को वायर्ड कर रहे हैं, तो वही Scrapeless MCP सर्वर उनमें भी जोड़ा जा सकता है: TypeScript पथ के लिए Mastra एकीकरण और दूसरे एजेंट रनटाइम के लिए Pi एजेंट एकीकरण देखें। अपने API कुंजी को यूनिटी कैटलॉग कनेक्शन में रखें, एक बार अंत बिंदु को पंजीकृत करें, उपकरणों की सूची बनाएं, और एजेंट को चुनने दें। पूर्ण संदर्भ docs.scrapeless.com पर।

अपनी AI-शक्ति वाली डेटा पाइपलाइन बनाने के लिए तैयार हैं?

हमारे समुदाय में शामिल हों, एक मुफ्त योजना का दावा करें और डेवलपर्स से जुड़ें जो Databricks + Scrapeless MCP एजेंट बना रहे हैं: Discord · Telegram.

फ्री स्क्रैपिंग ब्राउज़र रनटाइम के लिए app.scrapeless.com पर साइन अप करें और ऊपर दिए गए एकीकरण को उन SERPs, पृष्ठों, और क्षेत्रों के लिए अनुकूलित करें जिनकी आपके Databricks एजेंटों को आवश्यकता है। पूर्ण संदर्भ docs.scrapeless.com पर।

सामान्य प्रश्न

प्रश्न: Databricks एजेंट को वेब एक्सेस के लिए MCP सर्वर की आवश्यकता क्यों है?

क्योंकि एक मोज़ेक एआई एजेंट केवल उन उपकरणों को कॉल कर सकता है जिन्हें आप इसके साथ पंजीकृत करते हैं, और इसमें कोई अंतर्निहित वेब खोज या ब्राउज़र नहीं है। एमसीपी मानक, ढाँचा-स्वतंत्र तरीका है उस क्षमता को जोड़ने का, और डाटाब्रिक्स प्रबंधित प्रॉक्सी के माध्यम से बाहरी एमसीपी सर्वरों का समर्थन करता है। स्क्रैपलेस को कनेक्ट करना एजेंट को लाइव गूगल सर्च, प्रस्तुत पृष्ठ पहुँच, और एक ही बार में पूर्ण एंटी-डिटेक्शन क्लाउड ब्राउज़र प्रदान करता है।

प्रश्न: डाटाब्रिक्स स्क्रैपलेस जैसे बाहरी एमसीपी सर्वर से कैसे जुड़ता है?

एक यूनिटी कैटलॉग HTTP कनेक्शन के माध्यम से जिसे एमसीपी कनेक्शन के रूप में चिह्नित किया गया है। आप https://api.scrapeless.com/mcp को कनेक्शन के रूप में पंजीकृत करते हैं, स्क्रैपलेस x-api-token को इसके प्रमाण पत्र के रूप में स्टोर करते हैं, और डाटाब्रिक्स इसे एजेंट कोड के लिए https://<workspace-host>/api/2.0/mcp/external/<connection_name> पर उजागर करता है। एजेंट कोड उस प्रॉक्सी यूआरएल के खिलाफ DatabricksMCPClient का उपयोग करता है, इसलिए स्क्रैपलेस टोकन कनेक्शन में रहता है और एजेंट में कभी नहीं दिखाई देता।

प्रश्न: कौन सा वातावरण चर या हेडर स्क्रैपलेस कुंजी रखता है?

सर्वर का stdio लॉन्च SCRAPELESS_KEY पढ़ता है; HTTP अंत बिंदु x-api-token हेडर से वही मान पढ़ता है। जब आप यूनिटी कैटलॉग कनेक्शन पंजीकृत करते हैं तो आप उस कुंजी को एक बार प्रमाण पत्र के रूप में स्टोर करते हैं, इसलिए तैनात एजेंट कोड इसे सीधे संभालता नहीं है।

प्रश्न: स्क्रैपलेस एमसीपी सर्वर कितने उपकरण प्रस्तुत करता है, और वे क्या हैं?

21 उपकरण: SERP डेटा के लिए google_search और google_trends; एक-बार पृष्ठ फेच के लिए scrape_html, scrape_markdown, और scrape_screenshot; और 16 browser_* उपकरण (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close) राज्यपूर्ण क्लाउड-ब्राउज़र नियंत्रण के लिए। सर्वर उन्हें नग्न नामों के रूप में प्रकाशित करता है; उन्हें लोड करने वाला क्लाइंट अपना स्वयं का नामस्थान लागू करता है।

प्रश्न: क्या मुझे स्क्रैपलेस को एक डाटाब्रिक्स ऐप के रूप में होस्ट करने की आवश्यकता है?

नहीं। एक डाटाब्रिक्स ऐप के रूप में एमसीपी सर्वर को होस्ट करना उन सर्वरों के लिए है जिन्हें आप स्वयं चलाते हैं। स्क्रैपलेस एक प्रबंधित बाहरी अंत बिंदु है, इसलिए आप इसे एक यूनिटी कैटलॉग HTTP कनेक्शन के रूप में पंजीकृत करते हैं और प्रबंधित बाहरी-एमसीपी प्रॉक्सी के माध्यम से तक पहुँचते हैं — आपके पक्ष पर किसी चीज़ को तैनात करने या चलाए रखने की आवश्यकता नहीं है।

प्रश्न: क्या मैं तैनात एजेंट के बाहर कनेक्शन का परीक्षण कर सकता हूँ?

हाँ। मानक एमसीपी पाइथन एसडीके को https://api.scrapeless.com/mcp पर x-api-token हेडर के साथ इंगित करें, initialize फिर list_tools() को कॉल करें, और आप वही 21 उपकरण देखेंगे जो तैनात एजेंट प्रॉक्सी के माध्यम से प्राप्त करता है। वह प्रत्यक्ष मार्ग आपके कुंजी और अंत बिंदु की पुष्टि करने का सबसे तेज़ तरीका है इससे पहले कि आप यूनिटी कैटलॉग कनेक्शन पंजीकृत करें।

प्रश्न: क्या इसके लिए एक विशिष्ट मॉडल की आवश्यकता है?

नहीं। एजेंट का मॉडल वह है जो भी डाटाब्रिक्स सेवा अंत बिंदु आप उसमें वायर करते हैं - एक फाउंडेशन मॉडल अंत बिंदु या एक बाहरी मॉडल। स्क्रैपलेस उपकरण मॉडल-स्वतंत्र हैं; एक ऐसा मॉडल चुनें जो उपकरण कॉल को अच्छे से संभालता है, और एजेंट स्क्रैपलेस उपकरणों को उसी तरह संकलित करता है चाहे प्रदाता जो भी हो।

प्रश्न: क्या एजेंट के माध्यम से वेब स्क्रैपिंग कानूनी है?

सार्वजनिक रूप से उपलब्ध डेटा को स्क्रैप करना सामान्यतः स्वीकार्य है, लेकिन आप इसके उपयोग के लिए जिम्मेदार हैं। प्रत्येक साइट की सेवा की शर्तों की समीक्षा करें और robots.txt का सम्मान करें, और याद रखें कि व्यक्तिगत डेटा और पहुँच के चारों ओर के नियम क्षेत्राधिकार के अनुसार भिन्न होते हैं। जब संदेह में हों, तो अपने विशिष्ट उपयोग मामले के लिए कानूनी सलाह लें।

प्रश्न: क्या आप इसे डाटाब्रिक्स के बिना उपयोग कर सकते हैं?

हाँ। स्क्रैपलेस एमसीपी सर्वर एक मानक एमसीपी सर्वर है, इसलिए कोई भी एमसीपी-संगत क्लाइंट इसे कॉल कर सकता है - या आप इसे JSON-RPC (initialize, फिर tools/list और tools/call) के माध्यम से सीधे चला सकते हैं। डाटाब्रिक्स इसके लिए एक होस्ट है, आवश्यकता नहीं।

स्क्रैपलेस में, हम केवल सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं, जबकि लागू कानूनों, विनियमों और वेबसाइट गोपनीयता नीतियों का सख्ती से अनुपालन करते हैं। इस ब्लॉग में सामग्री केवल प्रदर्शन उद्देश्यों के लिए है और इसमें कोई अवैध या उल्लंघन करने वाली गतिविधियों को शामिल नहीं किया गया है। हम इस ब्लॉग या तृतीय-पक्ष लिंक से जानकारी के उपयोग के लिए सभी देयता को कोई गारंटी नहीं देते हैं और सभी देयता का खुलासा करते हैं। किसी भी स्क्रैपिंग गतिविधियों में संलग्न होने से पहले, अपने कानूनी सलाहकार से परामर्श करें और लक्ष्य वेबसाइट की सेवा की शर्तों की समीक्षा करें या आवश्यक अनुमतियाँ प्राप्त करें।

सबसे लोकप्रिय लेख

सूची