スクレイプレスMCPサーバーをゼロクローに統合する方法:ステップバイステップガイド
Specialist in Anti-Bot Strategies
主なポイント:
- 1つのTOMLブロックでクラウドブラウザをローカルRustエージェントに接続。 ZeroClawは、LLMプロバイダと通信し、30以上のチャネルでリスニングし、ツールを介して行動する単一バイナリのAIエージェントランタイムです。Scrapeless MCP Serverを追加するには、
~/.zeroclaw/config.tomlに4行の[mcp]ブロックを追加するだけで、SDKのインストールもデーモン管理もエージェント側のコード変更も不要です。 - 20のMCPツール、2つのインターフェース。 Scrapeless MCP Serverは、
google_search、google_trends、完全なbrowser_*クラウドブラウザのプリミティブセット、scrape_html/scrape_markdown/scrape_screenshotを公開しています。Stdioトランスポートはローカルでnpx -y scrapeless-mcp-serverを介して実行され、ストリーミングHTTPはhttps://api.scrapeless.com/mcpにポインティングします。 - MCPとエージェントスキルは相補的であり、代替ではない。 MCPサーバーはZeroClawにツールを提供し、Scrapeless OpenClawスキル —
webunlocker-skillおよびllm-chat-scraper-skill— は、基盤となるScrapeless APIを駆動するための方法を提供します。ZeroClawはOpenClawから移行しており、同じSKILL.md形式を読み取るため、スキルは~/.zeroclaw/workspace/skills/に配置され、zeroclaw skills listを介して呼び出すことができます。 - 検出回避用クラウドブラウザ、195カ国以上の住宅プロキシ。 Scrapelessは、JavaScriptレンダリング、住宅プロキシの出口、フィンガープリンティングのランダム化(UA、タイムゾーン、WebGL、キャンバス)、セッションの持続性をプラットフォームレベルで処理するため、ZeroClawエージェントは回避の配管ではなくタスクに集中できます。
- 発見→抽出は任意のサイトで機能。
google_searchを使用してページを特定し、scrape_markdownでJSレンダリングSPAからクリーンなテキストを抽出し、ページネーションのあるインタラクティブなフローにはbrowser_*ツールを使用し、時系列コンテキストにはgoogle_trendsを使用します。エージェントはそれらを組み合わせ、プロトコル内の何もターゲット特有ではありません。 - 無料で開始可能。 新しいScrapelessアカウントには無料のMCPランタイムが含まれています — app.scrapeless.comで登録してください。
はじめに:ローカルRustエージェントからライブウェブアクセスへ
ZeroClawは、オペレーター自身のマシン上で完全に動作するRustエージェントランタイムです。1つのバイナリ、1つのTOML構成、オペレーターのキー、オペレーターのワークスペース。約20のLLMプロバイダと通信し、Discord、Telegram、Matrix、メール、音声、Webhook、CLIを介して世界にアクセスし、シェル、ブラウザ、HTTP、ハードウェア、MCPサーバーツールを使って行動します。31,000スターのリポジトリは、監督付きの自律性、OSレベルのサンドボックス(Landlock、Bubblewrap、Seatbelt、Docker)、およびすべてのアクションに対する暗号化ツールのレシートを中心に構築されたセキュリティモデルを提供します。
任意のローカルエージェントランタイムの基本的な制限は、全てのLLMが直面する同じものであり、モデルの知識はトレーニングのカットオフで凍結されます。研究、モニタリング、リード生成、競争情報、そしてライブ発行者データに対するRAGの場合、その制限はエージェントがモデルがトレーニング時に存在しなかったページを読む必要が生じた瞬間に現れます。ZeroClawの組み込みブラウザとHTTPツールは、無害なページやドキュメント検索をカバーしますが、Cloudflare、Akamai、reCAPTCHA、またはIP評判フィルタリングの背後にある商業ページは、これらのツールが設計されていない別の表面です。
この投稿では、ScrapelessをZeroClawに接続する方法を、ランタイムがサポートする2つの統合インターフェース、Scrapeless MCP Server(エージェントに新しいツールを公開するための標準的な方法)およびScrapeless OpenClawスキル(エージェントがそれらのツールを効果的に駆動するためにロードする標準的な知識ファイル)を通じて説明します。二つは互いに補完し合っています — MCPサーバーはエージェントが呼び出すものであり、スキルは基盤となるScrapeless APIをいつどのように呼び出すかを教えてくれます。同じScrapelessプリミティブが他のクライアントを介して公開される場合、MCPサーバーチュートリアルはClaude Desktop / Cursor / Codex CLIを通じて詳細を説明し、Hermes統合投稿は、すでにChrome DevTools Protocolを使っているエージェントのための直接CDPパスをカバーしています。
ZeroClawとは?
ZeroClawは、オペレーター自身のマシン上でエージェントランタイムを起動する単一のRustバイナリです。メンテナは「あなたはエージェントを所有し、あなたはデータを所有し、あなたはそれが動作するマシンを所有している」と説明しています。このランタイムは、4つの動く部分で構成されています:
- チャネル(30以上のアダプター)。 Discord、Telegram、Matrix、メール、音声、Webhook、CLI、ACP IDEブリッジからの受信メッセージ — すべて同じエージェントループにルーティングされます。
- プロバイダー(約20のLLMバックエンド)。 Anthropic、OpenAI、Ollama、任意のOpenAI互換エンドポイント。フォールバックチェーンとルーティングにより、プロバイダーに問題があった場合でもエージェントは稼働を続けます。
- ツール(シェル、ブラウザ、HTTP、ハードウェア、MCP)。 アクションの表面。MCPサーバーはビルトインツールと並ぶファーストクラスのツールとして登録されます。
- セキュリティポリシーとSOPエンジン。 デフォルトの自律性は
監視: 中リスクの操作は承認が必要で、高リスクはブロックされます。標準操作手順は、承認ゲートと再開可能な実行を持つMQTT、Webhook、Cronまたは周辺イベントでトリガーされます。
設定は一箇所にあります: ~/.zeroclaw/config.toml。ワークスペース — スキル、メモリ、ログ、MCP状態 — は~/.zeroclaw/workspace/にあります。OpenClawから移行するオペレーターは、ワークスペースを直接インポートできます; スキルフォーマットは同じです。
ZeroClawエージェントにWebアクセスを追加する理由
ZeroClawを駆動するLLMは同じ制約を共有しています: トレーニングカットオフ。これは、更新されていない回答、幻覚の事実、URLが回転または404されたツール呼び出しの3つの観察可能な失敗モードを生み出します。
ZeroClawは、組み込みのhttpとbrowserツールを提供し、それらは広範囲をカバーしています。商用ウェブには最適化されていません: JSでレンダリングされたSPAs、ボット対策のインタースティシャル、CAPTCHAチャレンジ、そして地理的に制限されたコンテンツが、エージェントとオペレーターが実際に望むデータの間にあります。Scrapelessを接続することで、これらの失敗モードは通常のツール呼び出しに変わります:
- リアルタイムリサーチ
google_search(地元のgl+hlパラメータ付きのGoogle)およびgoogle_trends(時系列の興味データ)を通じて。 - クロスソースバリデーション
scrape_markdownを使用して、単一エージェントターンで複数の結果URLと比較します。 - JS依存のサイトからのライブデータ収集 — 価格ページ、マーケットプレースのリスト、レビューページ、公共ディレクトリ —
browser_*クラウドブラウザプリミティブを通じて。 - 地理的に制限されたクエリ 特定の国にセッションを割り当てることで、エージェントが現地のユーザーが見るものを確認できます。
ScrapelessでZeroClawを拡張する方法:2つのサーフェス
Scrapelessは、2つのサーフェスを通じてZeroClawをサポートし、両方を一緒に使用します:
- Scrapeless MCPサーバー — モデルコンテキストプロトコルを介して20のクラウドブラウザ、SERP、およびスクレイピングツールを公開する公式サーバー。
- Scrapeless OpenClawスキル — ScrapelessユニバーサルスクレイピングAPIおよびLLMチャットスクレイパーを効果的に操作する方法を教える
SKILL.md形式の知識ファイル。ZeroClawはOpenClawスキルを直接インポートします。
MCPサーバーはエージェントが呼び出すものです。スキルはエージェントが呼び出すべきタイミングと方法を決定するために読むものです。これらは代替品ではありません — 一緒にインストールされることで、エージェントはツールとプレイブックの両方を持つことになります。
Scrapeless MCPサーバー
MCPサーバーは、20のツールを標準装備しています。コアセット:
| ツール | 何をするか |
|---|---|
google_search |
gl / hl ローカリゼーションパラメータを使用したSERP取得。 |
google_trends |
トレンド検索と時系列の興味データ。 |
scrape_markdown |
クラウドブラウザを通じてURLをレンダリングし、Markdownを返します。 |
scrape_html |
同様に、完全にレンダリングされたHTMLを返します。 |
scrape_screenshot |
任意のページの高品質なスクリーンショットをキャプチャします。 |
browser_create |
クラウドブラウザセッションを割り当て(または再利用)します。 |
browser_goto |
セッションをURLにナビゲートします。 |
browser_click / browser_type / browser_press_key |
インタラクティブなページ要素を操作します。 |
browser_scroll / browser_scroll_to |
レイジーロードされたコンテンツをトリガーします。 |
browser_get_html / browser_get_text |
現在のクラウドブラウザページから抽出します。 |
browser_screenshot / browser_snapshot |
レビューまたは下流処理用に状態をキャプチャします。 |
browser_wait_for / browser_wait |
セレクターまたは固定期間を待ちます。 |
browser_close |
セッションを解放します。 |
2つのトランスポートがサポートされています。Stdio(npx -y scrapeless-mcp-server)は、ZeroClawをローカルで実行するワークステーションのための適切なデフォルトです; ストリーミングHTTP(https://api.scrapeless.com/mcp)は、エージェントがリモートホスト上で実行され、オペレーターがScrapelessによってホストされるMCPサーバーを望む場合の適切なデフォルトです。
Scrapeless OpenClawスキル
スキルは、特定のScrapeless APIをラップする小さなPythonランタイムを持つSKILL.mdファイルです。両方とも公式Scrapeless GitHubオーガニゼーションに提供されています:
| スキル | エージェントに何を教えるか |
|---|---|
webunlocker-skill |
ScrapelessユニバーサルスクレイピングAPIを操作 — HTML / プレーンテキスト / Markdown / スクリーンショット / 構造化コンテンツを自動CAPTCHA解決(reCAPTCHA、Cloudflare Turnstile、Cloudflare Challenge)を使用して取得、JSレンダリング、住宅用プロキシでの出口(--country使用)、リトライ、POST + カスタムヘッダーサポート。 |
llm-chat-scraper-skill |
ChatGPT、Gemini、Perplexity、Grokから構造化されたチャット応答を収集 — AI検索モニタリングおよびGEO計測ワークフローに役立ちます。 |
ZeroClawはOpenClawスキルフォーマットを継承します。スキルは~/.zeroclaw/workspace/skills/に複製され、zeroclaw skills listでリストされ、次のzeroclaw agentセッションでエージェントが利用できるようになります。
何ができるか
- 日々のモニタリングエージェント。 毎朝実行されるゼロクローSOPをスケジュール:トラッキングキーワードのための
google_search、上位3つの結果をscrape_markdownし、要約を作成し、Discord チャンネルアダプターを介して配信します。 - AI検索可視性の追跡。 LLMチャットスクレイパースキルを使用して、ブランドに関連するプロンプトに対してChatGPT、Gemini、Perplexity、およびGrokが生成する応答を一定の間隔で取得し、時間の経過とともに存在感と感情を追跡します。
- 公共ディレクトリからのリード生成。 ページネーションされた公共ディレクトリを通じてクラウドブラウザを駆動し、ドメインでデデュープし、レコードをエージェントのメモリストアに渡します。
- 人間が介在する認証フォームの入力。 ベンダーのオンボーディングや求人応募フォームを最終レビュー画面に駆動し、全ページのスクリーンショットを取り、提出前に停止して人間が承認できるようにします。
- 地理的制約のある競合企業の価格設定。 特定の国でセッションを割り当て、ローカライズされた価格ページをレンダリングし、前回のスナップショットと比較し、閾値がトリップした際にチャンネルに通知します。
- ライブパブリッシャーデータに対するRAG。 パブリッシャーページを
scrape_markdownを通じてクリーンテキストにレンダリングし、ZeroClawのSQLite + 埋め込みメモリに埋め込み、将来のターンのために取得します。 - 善良な研究ターゲットのためのCloudflareバイパス。 ウェブアンロッカーのスキルはターンスタイルやチャレンジページを自動的に処理します; エージェントはクリーンなMarkdownペイロードのみを確認します。
Scrapelessでは、適用される法律、規制、およびウェブサイトのプライバシーポリシーを厳守しながら、公開されているデータにのみアクセスします。この投稿の内容はデモンストレーション目的のみです。
なぜScrapelessなのか
Scrapelessは、検出防止のクラウドブラウザ、ユニバーサルスクレイピングAPI、SERP API、LLMチャットスクレイパーを一つのAPIキーの背後にまとめたものです。特にZeroClawには以下の利点があります:
- ネイティブのMCPサーバー — SDKのインストール不要、アダプターコードも不要。
~/.zeroclaw/config.tomlのMCPブロックが全体の統合です。 - クラウドサイドのJavaScriptレンダリング により、SPA、無限スクロールフィード、およびレイジーロードパネルが
browser_*ツールとscrape_markdownの対象になります。 - 195か国以上の住宅プロキシ により、地理的に制約されたクエリがローカルユーザーが見るリスティングを返します。
- すべてのセッションでの検出防止指紋認証 — UA、タイムゾーン、言語、画面解像度、WebGL、キャンバスがセッションごとにランダム化されます。
- 自動CAPTCHA解決 — reCAPTCHA、Cloudflareターンスタイル、CloudflareチャレンジのWebアンロッカーサーフェスを通じて。
- 単一の管理インターフェース — 一つのAPIキー、一つのダッシュボード、新規アカウントプランでの無料ランタイムクレジット。
無料プランでAPIキーを取得するには、app.scrapeless.com を訪れてください。フルMCPツールサーフェスは github.com/scrapeless-ai/scrapeless-mcp-server で文書化され、APIサーフェスは docs.scrapeless.com で利用できます。
前提条件
- UNIXライクなホスト。 Linux、macOS、またはWindowsのWSL2。ZeroClawはWindowsビルドを公開していますが、インストールスクリプトとスキルスクリプトはPOSIXシェルを前提としています — 最もスムーズなパスはLinux / macOS / WSL2です。
- Node.js 18以上 がMCP stdioトランスポート用に必要です(
npx -y scrapeless-mcp-server)。 - Python 3.10以上 がOpenClawスキル用(Pythonスクリプトとして
scripts/に提供されています)。 - Rustツールチェイン はソースからインストールする場合に必要です;事前ビルドバイナリパスには追加の処理は必要ありません。
- ScrapelessアカウントとAPIキー — app.scrapeless.com でサインアップし、設定 → APIキー管理 からキーをコピーします。
- LLMプロバイダーキー — Anthropic、OpenAI、Ollama、またはOpenAI互換のエンドポイント。ZeroClawのオンボーディングウィザードが接続します。
git— スキルリポジトリのクローン用。jqはオプション — CLI出力のパイピング時に便利ですが、MCPパスには必要ありません。
ZeroClawをインストールする
完全なセットアップは2つのサブステップです。
1. インストーラーを実行する
bash
curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/master/install.sh | bash
インストーラーは、事前ビルドバイナリを取得するか(数秒)、ソースからビルドするか(遅く、カスタマイズ可能)を尋ねます。どちらも最終的には同じ結果になります — zeroclaw onboard が自動的に開始されます。ウィザードをスキップしたい場合は --skip-onboard を渡し、後で zeroclaw onboard を実行してください。
バイナリがパスに存在することを確認します:
bash
zeroclaw --version
出力は zeroclaw 0.7.5 以上のように表示されるはずです。
2. オンボーディングウィザードを完了する
bash
zeroclaw onboard
ウィザードはプロバイダーの選択、チャネルの接続、自律モード、パーソナライズを案内します。この統合のためには、2つの設定が重要です:
- プロバイダー — すでに設定されている任意のLLMプロバイダー(OpenAI、Anthropic、Ollama、OpenAI互換のゲートウェイ)を選択します。プロンプトが表示されたらAPIキーを貼り付けます。
- 自律性 —
supervisedは安全なデフォルトです。エージェントは中リスクのツールを呼び出す前に確認を促します。MCPツールはデフォルトで中リスクに分類されます。プロンプトの摩擦がある開発ボックスの場合、ウィザードは信頼できるマシンでのみオンにすべきyoloモードも提供します。
チャットを始めてランタイムが起動していることを確認します:
bash
zeroclaw agent
「Hey!」と表示されるべきです。そうなれば、ランタイムは正常で、次のステップはMCPサーバーの接続です。
ZeroClawをScrapeless MCPサーバーに接続する
1. ZeroClawの外でMCPサーバーをスモークテストする
config.tomlにMCPブロックを追加する前に、サーバーがスタンドアロンで起動することを確認します。ZeroClawはエージェント起動時にMCPサーバーを遅延ロードするため、エージェントが初めて実行されるときに構成が壊れていることが表面化します — 今のうちに確認しておいた方が良いです:
bash
SCRAPELESS_KEY="<YOUR_SCRAPELESS_KEY>" npx -y scrapeless-mcp-server
最初の実行時、npxはレジストリからscrapeless-mcp-serverをダウンロードし、サーバーは標準入出力経由で起動します。プロセスは接続され続けます;Ctrl-Cを押して解放してください。開始バナーが表示され、MCPリクエストを待機している場合、認証情報とパッケージはどちらも正常に動作しています。
無料プランのAPIキーを取得するには:app.scrapeless.com
2. ~/.zeroclaw/config.tomlにMCPブロックを追加する
ZeroClawはグローバル構成の[mcp]ブロックからMCPサーバーの構成を読み込みます。以下を追加(またはマージ)します:
toml
# ~/.zeroclaw/config.toml
[mcp]
enabled = true
deferred_loading = true
servers = [
{ name = "scrapeless", command = "npx", transport = "stdio", args = ["-y", "scrapeless-mcp-server"], env = { SCRAPELESS_KEY = "<YOUR_SCRAPELESS_KEY>" }, headers = {} }
]
注意:
-
enabled = trueはMCPサブシステムを有効化します。最近のZeroClawビルドではデフォルトで無効になっています。 -
deferred_loading = trueはデーモンの起動を迅速に保ちます;ZeroClawはエージェントが実際にセッションを開始したときのみnpxを起動します。 -
env.SCRAPELESS_KEYは認証情報です — ステップ1のスモークテストと同じキーを使用します。 -
標準入出力の代わりにホスト型ストリーミングHTTPトランスポートを使用するには、次のエントリに置き換えます:
toml{ name = "scrapeless", transport = "http", url = "https://api.scrapeless.com/mcp", headers = { "x-api-token" = "<YOUR_SCRAPELESS_KEY>" } }ZeroClawのMCPクライアントスタックは、
stdio、http、およびsseの3つのトランスポート値をサポートしており、command/argsは標準入出力用、url/headersはリモートトランスポート用に検証が適用されます(ZeroClawの問題 #1380に従います)。HTTPトランスポートは、ZeroClawがリモートホスト(VPSまたはコンテナ)で実行され、オペレーターがnpxをそこで実行したくない場合に適したデフォルトです。
3. ZeroClaw内から接続を確認する
エージェントセッションを再起動して、新しい構成を読み込み、MCPサーバーを遅延ロードします:
bash
zeroclaw agent
新しいチャットで、次のように尋ねます:
どのScrapeless MCPツールにアクセスできますか?
エージェントは、以前に一覧されていた20のツール(google_search、google_trends、browser_*セット、scrape_html、scrape_markdown、scrape_screenshot)を列挙するべきです。答えがゼロツールという場合、最も一般的な原因は[mcp]内のenabled = falseです;2番目に一般的なのはSCRAPELESS_KEYのタイプミスです。
Scrapeless OpenClawスキルをインストールする
MCPサーバーはツールです。スキルはプレイブックです。両方のScrapelessスキルは、ランタイムがOpenClawスキルフォーマットを直接サポートするため、ZeroClawで動作します。
1. ~/.zeroclaw/config.tomlでスキルスクリプトを許可する
両方のScrapelessスキルは、エージェントが実行するscripts/ディレクトリを持っています。[skills]セクションでallow_scripts = trueを設定します:
toml
# ~/.zeroclaw/config.toml
[skills]
allow_scripts = true
allow_scriptsは安全のためにデフォルトでオフになっています。これをオンにすることで、ZeroClawは既に発効されている自律ポリシーの下でスキルにバンドルされたスクリプトを実行する権限を付与されます;中リスクのスクリプト呼び出しは、supervisedモードの下で依然として承認を求めます。
2. スキルリポジトリをクローンする
bash
mkdir -p ~/.zeroclaw/workspace/skills
git clone https://github.com/scrapeless-ai/webunlocker-skill ~/.zeroclaw/workspace/skills/webunlocker-skill
git clone https://github.com/scrapeless-ai/llm-chat-scraper-skill ~/.zeroclaw/workspace/skills/llm-chat-scraper-skill
3. Pythonの依存関係とAPIトークンをインストールする
Web Unlockerスキルはrequirements.txtを持っています:
bash
cd ~/.zeroclaw/workspace/skills/webunlocker-skill
pip install -r requirements.txt
cp .env.example .env
# 次に、.envを編集してX_API_TOKEN=<YOUR_SCRAPELESS_KEY>を設定します
エージェントの範囲内であれば、LLM Chat Scraperスキルについても同様の手順を繰り返します。
4. スキルがZeroClawから見えることを確認する
bash
zeroclaw skills list
出力には webunlocker-skill と llm-chat-scraper-skill が含まれている必要があります。これらが欠けている場合、最も一般的な原因は、クローンが ~/.zeroclaw/skills/ の下に配置されているのではなく、~/.zeroclaw/workspace/skills/ の下に配置されていることです — 後者はランタイムが監視しているパスです。
ZeroClaw + Scrapeless の実際の動作
オペレーターが追跡するトピックに関する日次の競争情報ブリーフの現実的な作業例。エージェントは新しい情報源を見つけ、コンテンツを抽出し、構造化された要約を生成し、エージェントが結び付けられている任意のチャネルに配信します。
zeroclaw agent に貼り付けてください:
「AIエージェントフレームワーク」に関する過去7日間の競争情報ブリーフを作成してください。
1. Scrapeless MCP `google_search` ツールを使用して、今週発表された最も関連性の高い5つのニュース/ブログ記事を見つけます。gl=us、hl=enを使用します。
2. 各結果のURLについて、`scrape_markdown` を使用して記事本文を抽出します。ナビゲーションのクロームや広告は無視します。
3. `google_trends` を使用して、「AIエージェントフレームワーク」に対する7日間の関心曲線を取得します。これにより、供給信号とともに需要信号を得ることができます。
4. 構造化されたMarkdownレポートを生成します:
- 5つの記事における上位3つのテーマ、それぞれに1文の要約とソースURLを含める。
- 7日間のトレンド方向(上昇/横ばい/下降)およびピーク日。
- 「今週の変化」の注目事項 — 先週のブリーフと比較して新しいもの。
対象ページがクラウドブラウザをブロックしている場合は、そのURLのみについて `browser_create` + `browser_goto` + `browser_get_text` を使用してフォールバックしてください。合成コンテンツに置き換えないでください; ソースを取得できない場合は「取得できなかったソース」としてリストします。
エージェントの計画を平易な英語で説明します:
google_search(q="AI agent frameworks", gl="us", hl="en")を呼び出し、主要情報源のように見える最新の5つの結果を選択します(集計ページはスキップ)。- URLを通過させて
scrape_markdownを実行し、クリーンな本文を作業メモリに保持します。 google_trends(q="AI agent frameworks", date="now 7-d")を呼び出し、興味曲線を取得します。- Markdownブリーフに要約します。
scrape_markdownを通じてアンチボットのインタースティシャルが返されるURLについては、browser_create→browser_goto→browser_get_textチェーンを使用して再試行し、クラウドブラウザセッションを温め、抽出前に水分補給を待ちます。
各ツール呼び出しの前に、ZeroClawの supervised 自律モードが承認を求めます — Y は一回限りの承認、A は同じセッション内の未来のツール呼び出しのための許可を記憶します。
インタラクティブチャットに入力せずにプロンプトを送信するには:
bash
zeroclaw agent --message "AIエージェントフレームワークに関する過去7日間の競争情報ブリーフを作成してください..."
これを即席プロンプトではなく、スケジュールされた実行にするために、cronスケジュールでSOPを登録し、エージェントがブリーフを配信すべきチャネルアダプタ(Discord、Telegram、メール)に結び付けます。MCPツールとスキルはそのままにしておき、トリガーのみが変更されます。
受け取った内容
ブリーフは以下のようなMarkdownペイロードとして返されます — 上記のプロンプトに対して「AIエージェントフレームワーク2026」の5つのライブSERP結果に対する実際の実行からキャプチャされたもの:
markdown
# AIエージェントフレームワーク — ウィークリーブリーフ(2026年5月12日の週)
## テーマ(過去7日間)
1. **LangGraphは合意形成されたプロダクションスタンダードです。** 今週発表された3つの深い比較(Towards AI、GuruSup、Alice Labs)は、プロダクションワークロードに対してLangGraphを第1位にランク付けしています。挙げられた理由は以下の通りです:
決定論的グラフ実行、人間の介在が必要なチェックポイント、LangSmithを通じた第一級の可視性。
ソース: https://pub.towardsai.net/top-ai-agent-frameworks-in-2026-a-production-ready-comparison-7ba5e39ad56d
2. **MCPはクロスフレームワークツール統合のスタンダードとして浮上中です。**
Anthropicのモデルコンテキストプロトコル — 現在、Linux Foundationが管理し、OpenAI、Google、Microsoft、AWS、Salesforceが支援者リストに名を連ねています —
3つの比較のうち2つでエージェントからツールへのスタンダードとして言及されています。
ソース: https://gurusup.com/blog/best-multi-agent-frameworks-2026
3. **AutoGen / AG2の分裂が2025-2026年の主要な開発となっています。** MicrosoftはAutoGenをv0.4+として新APIで書き直しました; コミュニティはv0.2の系譜をAG2(ag2.ai)として続けました。Alice LabsとGuruSupの両方が、これはマルチエージェント討論フレームワークを評価するチームにとって「慎重に選ぶ」瞬間であると警告しています。
ソース: https://alicelabs.ai/en/insights/best-ai-agent-frameworks-2026
## 需要信号
- 7日間のトレンド:利用不可(google_trends がこの実行で一時的な上流エラーを返しました — 次のスケジュールで再試行)
## 今週の変化
- Alice LabsがClaude Agent SDKを新たに#2に追加し、CrewAIを#3に押しやりました — 今回初めてAnthropicの公式SDKがマルチエージェントの一般論者を上回ったランクです。
- AutoGen / AG2のフォーク状況が3つ中2つの記事で言及され、先週の0から上昇しました。
## 取得できなかったソース
- (なし — alicelabs.ai SPAはbrowser_*フォールバックパスを必要とし、回復しました)
構造はプロンプトに従っています; 値はブリーフが実行された日の検証済みツールチェーンが実際に返したものです。ライブ実行を元にしたいくつかの正直な観察:
scrape_markdownはほとんどの出版社ページをうまくクリーンアップします。 Towards AI と GuruSup は最初の試行でクリーンなMarkdown本体を返しました。重度にJSレンダリングされたSPA(alicelabs.aiはこの実行でのWebflow / Vite SPAです)は、レンダリングされたHTMLシェルを返しました — エージェントはbrowser_create→browser_goto→browser_get_textチェーンを通じて回復し、ランク付けされたリスト、主要な教訓、FAQ、2026年5月の更新タイムスタンプを含む完全な構造化ページスナップショットを返しました。google_trendsは興味であり、ボリュームではありません — そして時には一時的です。 検証実行では、上流のTrends呼び出しがload failedエラーを返しました; プロンプトは合成データを代わりに使用することなく、このギャップを報告することで対処します。正しい再試行の姿勢は、次のスケジュールされた実行であり、同じエージェントターンの中でのホット再試行ではありません。- ソースごとの新鮮さは異なります。 一部の出版社は、記事を更新する際にタイムスタンプをバックフィルします; "新鮮さ" が絶対的に重要な場合、SERPスニペットではなく記事本文の公開日をクロスチェックしてください。(この実行のAlice Labsページは、2026年4月の公開日と2026年5月の更新日の両方を本体に示しています。)
- ボット対策のインタースティシャルやSPAシェルは通常のものであり、例外ではありません。 商業サイトに広範囲にわたって触れるプロンプトでは
browser_*フォールバックの予算を考慮してください; 検証実行では三つのURLのうち一つに当たり、その回復は問題ありませんでした。
結論: ライブウェブを読み取るエージェント
ZeroClaw + Scrapelessの統合は、オペレーターが一度だけ実行する四つのステップに簡略化されます: ZeroClawをインストールし、~/.zeroclaw/config.toml にScrapeless MCPサーバーを登録し、~/.zeroclaw/workspace/skills/ にOpenClawスキルを配置し、zeroclaw skills list とzeroclaw agent内のツールリストプロンプトで検証します。それ以降、ウェブに触れるすべてのエージェントターン — 研究、監視、リード生成、RAG取り込み、AI検索の可視性追跡 — は、クラウドブラウザー、住宅用プロキシ、および一つのAPIキーの背後にあるSERP APIを通過します。
他のクライアントでの同じScrapelessプリミティブについては、MCPサーバーチュートリアルがClaude Desktop / Cursor / Codex CLIをカバーし、Hermes統合投稿が直接-CDPをカバーし、LangChain統合投稿がPythonエージェントをカバーします。それらすべてに共通するパターンは次のとおりです: 住宅地域をピン止めし、マルチステップフロー間でセッションを温かく保ち、ボット対策インタースティシャルを例外ではなく再試行ケースとして扱い、エージェントが google_search → scrape_markdown → browser_*を実際のプロンプトが要求する内容に構成させます。
AI駆動のデータパイプラインを構築する準備は整いましたか?
私たちのコミュニティに参加して、無料プランを獲得し、Scrapelessの上にローカルエージェントパイプラインを構築している開発者とつながりましょう: Discord · Telegram。
app.scrapeless.com にサインアップして無料のMCPランタイムを手に入れ、上記のパターンをZeroClawエージェントがすでに実行しているワークフローに適応させてください。
FAQ
Q1. Scrapeless MCPサーバーはWindowsで動作しますか、それともLinux / macOSのみですか?
MCPサーバーはNode.jsパッケージです — Node 18+が動作するところならどこでも動作します、Windowsを含めて。ZeroClawのインストーラーはPOSIXシェルを前提にしているため、WindowsではWSL2が最もスムーズなルートです。HTTP-トランスポートバリアント(ZeroClawを https://api.scrapeless.com/mcp に指す)は、ローカル npx 依存を完全に排除し、ホスティングされたZeroClawデプロイメントに最も適しています。
Q2. Stdioまたはストリーム可能なHTTP — どのトランスポートが正しいデフォルトですか?
ローカルでZeroClawを実行するワークステーションの場合、stdioです。ライフサイクルはシンプルです: ZeroClawはエージェント起動時に npx -y scrapeless-mcp-server を生成し、エージェント停止時にそれを終了します。VPS上またはコンテナ内のZeroClawにはHTTPです。Scrapelessがホスティングするエンドポイントは、ランタイムイメージへの npx とNodeのパッケージ化の必要を排除します。
Q3. 公共のウェブデータをスクレイピングすることは合法ですか?
一般的にははい、データが公に可視であり、ワークフローが各サイトの利用規約および適用される法域を尊重する場合です。法的な立場は国、サイト、使用ケース(研究、商業リセール、トレーニングデータ)によって異なります。ワークフローをスケールさせる前に、対象サイトの利用規約を確認し、高ボリュームまたは規制がかかる使用ケースについては法律顧問に相談してください。
Q4. MCPサーバーとOpenClawスキルは重複しますか?
彼らは相補的です。MCPサーバーはエージェントにツールを提供します—具体的で呼び出し可能なサーフェス(google_search、scrape_markdown、browser_*)。スキルはエージェントに知識を与えます—Scrapeless Universal Scraping APIがどのように動作するか、JSレンダリングにフォールバックするタイミング、どのレスポンスタイプをリクエストするか、CAPTCHA解決と国選択をどのようにチェーンするか。これらを一緒にインストールすると、エージェントは両方を持っています。
Q5. ターゲットページがアンチボットのインタースティシャルを返すとどうなりますか?
ほとんどのページに対するscrape_markdownでは、クラウドブラウザーがチャレンジを透過的に解決します。それでもインタースティシャルを返すページに対しては、標準のフォールバックはbrowser_create → browser_goto → browser_wait_for(既知のポストチャレンジセレクター)→ browser_get_textです。このフォールバックは、商業サイトに触れるあらゆるプロンプトで予算を考慮してください。上記のプロンプト例がその形を示しています。
Q6. ZeroClawの自律モードはMCPツールの呼び出しとどのように相互作用しますか?
supervised(デフォルト)では、エージェントは最初に各MCPツールを呼び出す前にプロンプトを表示します。オペレーターは一度だけの承認(Y)またはこのツールを記憶する承認(A)を与えることができます。yoloモードでは、エージェントはプロンプトなしでツールを呼び出します。このモードは信頼された開発ボックスでのみ適切です。
Q7. エージェントはScrapelessの呼び出しを単一のターンで多段階フローに構成できますか?
はい—それが設計のポイントです。単一のエージェントターンは通常、google_search(位置特定)、scrape_markdown(標準URLからの抽出)、そしてbrowser_*(インタラクティブまたはアンチボット保護されたページへのフォールバック)を連鎖させます。ZeroClawは中間ツール呼び出しを同じ会話コンテキストにストリーミングします。
Q8. Scrapeless APIキーはどこにありますか?
MCPパスでは、~/.zeroclaw/config.toml内のenv.SCRAPELESS_KEYにあります(または、ストリーミング可能なHTTPのx-api-tokenヘッダーに)。スキルパスでは、各スキルディレクトリ内の.envファイルにX_API_TOKENとしてあります。この2つのパスは独立しています。キーをローテーションする場合は、両方の場所を更新する必要があります。
Q9. ZeroClaw SOPはスケジュールに基づいて同じプロンプトを発火できますか?
はい。オペレーターがzeroclaw agent --message "..."にペーストする同じプロンプトを実行するcronトリガーでSOPを登録します。SOPをチャネルアダプター(Discord、Telegram、メール)にバインドすると、簡潔な説明が自動的に配信されます。supervisedモードのSOPは中リスクのツール呼び出しを承認の背後にゲートします。不在でスケジュールされた実行の場合、SOPはより許可のある自律モード下で、または事前に付与されたツールの権限で構成する必要があります。
Q10. Scrapelessの他の製品—Scraping Browser、Universal Scraping API、SERP APIについては?
MCPサーバーは、最も一般的なクラウドブラウザー、SERP、およびスクレイピングのプリミティブを1つのMCPサーフェスにまとめています。完全なScraping Browserプリミティブセット(CDP、カスタムフィンガープリンツ、session_ttl粒度のセッション持続性)が直接必要なワークフローには、Scraping Browser CDPエンドポイントをZeroClawの組み込みbrowserツールに接続してください。これら2つのアプローチは組み合わせることができ、矛盾することはありません。
Scrapelessでは、適用される法律、規制、およびWebサイトのプライバシーポリシーを厳密に遵守しながら、公開されているデータのみにアクセスします。 このブログのコンテンツは、デモンストレーションのみを目的としており、違法または侵害の活動は含まれません。 このブログまたはサードパーティのリンクからの情報の使用に対するすべての責任を保証せず、放棄します。 スクレイピング活動に従事する前に、法律顧問に相談し、ターゲットウェブサイトの利用規約を確認するか、必要な許可を取得してください。



