ウェブスクレイピングのための5つのAIエージェントユースケース:YouTube、地図、Amazon、Booking、Instagram(Scrapeless MCP使用)
Expert Network Defense Engineer
主なポイント:
- 1つのプロンプトが1つのライブクラウドブラウザセッションになる。 Scrapeless MCPサーバーは、あらゆるAIエージェントに対して検出防止機能を持つScrapeless Scraping Browserを提供するため、単一の自然言語プロンプトでページをレンダリングし、構造化されたJSONを返します。俳優カタログをブラウズする必要も、スケジューラを接続する必要もありません。
- 今日から実行できる5つのユースケース。 YouTubeクリエイターリサーチ、ホテルレビューの感情分析、Googleマップのリード生成、クロスマーケットプレイスの価格調査、Instagramの発見がすべて同じ21ツールのMCPサーフェス上で実行可能です。
- 実際のScrapelessスクレイパーに基づいています。 以下のすべての出力形式は、オープンなScrapelessスクレイパーリポジトリ(YouTube、Booking.com、Googleマップ、Amazon/eBay/AliExpress、Instagram)内の動作中のスクレイパーを反映しています — スキーマは規範的で、フィールド値は説明的です。
- 195以上の国に住宅プロキシが組み込まれています。 クラウドブラウザは、各セッションを住宅IP経由でルーティングし、JavaScriptをレンダリングするため、ジオスコープされたページやレイジーロードされたコンテンツが完全に返されます。
- 任意のMCPクライアントで動作します。 Claude Desktop、Cursor、Codex CLI、Gemini CLIなどのMCP対応エージェントが、stdioまたはHTTP経由で接続します。
- 無料で始められます。 新しいScrapelessアカウントには、無料のScraping Browserランタイムが含まれています — Scrapeless公式ウェブサイトでサインアップしてください。
TL;DR: 5つのMCPユースケース一覧
| ユースケース | 使用するMCPツール | Scrapelessスクレイパー | 出力 |
|---|---|---|---|
| YouTubeクリエイターリサーチ | google_search, browser_create/goto/wait_for/get_html/close |
youtube-scraper | 動画 + チャンネル JSON |
| ホテルレビューの感情分析 | browser_*, scrape_markdown |
bookingcom-scraper, tripadvisor-scraper | レビューコーパス JSON |
| Googleマップのリード生成 | browser_* (スクロール、クリック) |
google-maps-scraper | プレイスリスト JSON |
| マーケットプレイス間の競合調査 | browser_*, google_trends |
amazon-scraper / ebay-scraper / aliexpress-scraper | 製品比較 JSON |
| Instagramの発見 | browser_* (スクロール) |
instagram-scraper | プロフィール + 投稿 JSON |
Scrapeless MCPサーバーとは?
Scrapeless MCPサーバーは、Scrapeless Scraping Browserを公開するモデルコンテキストプロトコルサーバーです — これは、住宅プロキシを195以上の国に持つ自己開発のChromiumによって駆動される検出防止クラウドブラウザであり、任意のMCP対応AIエージェントにアクセスできます。 スクレイピングコードを書く代わりに、エージェントはツールを呼び出します。
以下の3つのグループにわたって21のツールが提供されています:
- ブラウザプリミティブ —
browser_create,browser_goto,browser_go_back,browser_go_forward,browser_click,browser_type,browser_press_key,browser_wait,browser_wait_for,browser_screenshot,browser_snapshot,browser_get_html,browser_get_text,browser_scroll,browser_scroll_to,browser_close。 - 検索とトレンド —
google_search(gl/hlでパラメーター化)およびgoogle_trends。 - ステートレスなスクレイピング —
scrape_html,scrape_markdown,scrape_screenshot。
2つのトランスポートが利用可能です:stdio(クライアントがnpx -y scrapeless-mcp-serverを起動)とHTTP(リモートエージェントをhttps://api.scrapeless.com/mcpにx-api-tokenヘッダーを付けてポイント)。完全な設定はドキュメントにあります。
これらのユースケースの仕組み
以下のすべてのユースケースは、同じ形状に従います:発見し、次に抽出します。 エージェントは、1つのクラウドブラウザセッションを開き、ページに移動し、コンテンツのレンダリングを待ち、構造化されたフィールドを引き出します — すべては単一のプロンプトから。サイトごとの俳優をカタログから選ぶ必要も、別のスケジューラを維持する必要もありません。同じ21のツールがすべてのサイトを駆動し、プロンプトを変更することでターゲットを変更します。
一度インストールしてどこでも再利用
短い設定ブロックでサーバーを任意のMCPクライアントに追加します:
jsonc
{
"mcpServers": {
"scrapeless": {
"command": "npx",
"args": ["-y", "scrapeless-mcp-server"],
"env": { "SCRAPELESS_KEY": "your_api_token_here" }
}
}
}
無料プランでAPIキーを取得して、Scrapeless公式ウェブサイトにアクセスしてください。HTTPストリーミングエージェントの場合は、代わりにx-api-tokenヘッダーを付けてhttps://api.scrapeless.com/mcpを指します。完全なサーバー設定、トランスポート、および作業例は、コンパニオンガイドでご覧いただけます:Scrapeless MCPサーバーが正式にライブ。
1. YouTubeリードおよびクリエイターリサーチ
あらゆるニッチのクリエイターを見つけ、構造化された動画とチャンネルのメタデータを引き出します — CRMまたはアウトリーチスプレッドシートに貼り付ける準備完了。
使用するツール
google_search— 手動でのブラウジングなしにニッチに関連する動画やチャンネルページを表示browser_create— Scrapeless Scraping Browserクラウドブラウザセッションを立ち上げるbrowser_goto— YouTube動画またはチャンネルのURLに移動browser_wait_for— ページの動的コンテンツが読み込まれるのを待機browser_get_html— 解析のために全てレンダリングされたHTMLを取得browser_close— セッションを正常に終了
参考実装: youtube-scraper/browser/mcp/
サンプルプロンプト
Scrapeless MCP Serverを使用して、過去6ヶ月間に公開されたAI生産性ツールを扱うトップ10のYouTubeクリエイターを見つけます。各動画について、タイトル、再生回数、いいね数、公開日を収集します。各チャンネルについて、名前、ハンドル名、登録者数、チャンネルURLを収集します。結果をGoogleシートに貼り付けるためのJSON配列として返します。
返ってくるもの
json
// スキーマは規範的です; フィールド値は例示的です。
[
{
"video": {
"videoId": "dQw4w9WgXcQ",
"title": "Rick Astley - Never Gonna Give You Up (Official Video) (4K Remaster)",
"publishingDate": "2009年10月24日",
"lengthSeconds": 213,
"stats": { "viewCount": 1771873274, "likeCount": 19000000, "commentCount": 2400000 }
},
"channel": {
"name": "Rick Astley",
"id": "@RickAstleyYT",
"channelUrl": "https://www.youtube.com/@RickAstleyYT",
"subscriberCount": "450万人",
"verified": false
}
}
]
設定するアクターはなく、配線するスケジューラーもなく、維持するプロキシプールもありません — 一つのプロンプトが195か国以上の住宅プロキシを経由して単一のクラウドブラウザセッションをトリガーし、構造化されたJSONが直接エージェントのコンテキストに降りてきます。専用のキーワードに入れ替えれば、コードの変更なしで同じプロンプトを再利用できるため、クリエイターのプロスペクティングが繰り返し実行可能なワンライナーになります。
2. ホテルレビュー感情分析
Scrapeless MCP Serverを使用してホテルのゲストレビューを取得し、LLMがテーマ別に感情をスコアリングできるようにします — スタッフ、清潔さ、場所、部屋、ダイニング。
使用するツール
browser_create— 195か国以上の住宅プロキシを使用してクラウドブラウザセッションを開くbrowser_goto— プロパティのレビューページに移動browser_wait_for— レビューカードがレンダリングされるのを待機browser_scroll— 折り返し以下の追加レビューを読み込むbrowser_get_html— レンダリングされたレビューHTMLを取得scrape_markdown— HTMLをクリーンでLLM対応のテキストに変換browser_close— 完了時にセッションを解放
参考実装: bookingcom-scraper/browser/mcp/ · 代替ソース: tripadvisor-scraper
サンプルプロンプト
Scrapeless MCP Serverを使用してScrapeless Scraping Browserセッションを開き、[ホテルのURL]のBooking.comレビューページに移動し、ゲストレビューの少なくとも2ページをスクロールして、未加工のレビューオブジェクトを返します —
reviewScore、textDetails.positiveText、textDetails.negativeText、guestDetails.guestTypeTranslation、bookingDetails.roomType.nameを含む。各レビューに対して1つのオブジェクトを持つJSON配列を返します。
返ってくるもの
json
// スキーマは規範的です; フィールド値は例示的です。
[
{
"reviewScore": 8,
"guestDetails": { "username": "Theresa", "guestTypeTranslation": "一人旅", "countryName": "オーストラリア" },
"bookingDetails": { "roomType": { "name": "ダブルルーム" }, "numNights": 4, "customerType": "一人旅" },
"textDetails": { "positiveText": "場所が素晴らしかった。交通機関、食事、スーパーマーケットに近い。", "negativeText": null }
},
{
"reviewScore": 7,
"guestDetails": { "username": "Koreli", "guestTypeTranslation": "カップル", "countryName": "ギリシャ" },
"bookingDetails": { "roomType": { "name": "ダブルルーム" }, "numNights": 3, "customerType": "カップル" },
"textDetails": { "positiveText": "場所は素晴らしく、静かなエリアでバス停が近かった。", "negativeText": "部屋は二人には小さかった。" }
}
]
Scrapeless Scraping BrowserはJavaScriptレンダリングとページネーションを処理し、エージェントに構造化されたレビューオブジェクトを受け渡します — それを任意のLLMに直接パイプして、スタッフ、清潔さ、場所、部屋、ダイニングにわたって感情をスコアリングします。ターゲットURLを入れ替えて、同じワークフローをTripAdvisorに対して実行できます。195か国以上の住宅プロキシとセッション管理はクラウドブラウザによって処理されるため、コードは分析に集中できます。
無料プランでAPIキーを取得し、サインアップしてコミュニティに参加するには、Scrapeless公式サイトをご覧ください。
3. Google Mapsローカルリードジェネレーション
ターゲット都市におけるビジネスカテゴリをスキャンするようAIエージェントに依頼し、各リスティングの詳細ページフィールドをクリックして、ウェブサイトがないビジネスをフィルタリングした適格なリードリストを返します。
使用するツール
browser_create,browser_goto,browser_wait_for,browser_scrollbrowser_click,browser_get_html,browser_close
参考実装: google-maps-scraper/browser/mcp/
サンプルプロンプト
Scrapeless MCPサーバーを使用して、テキサス州オースティンの「コーヒーショップ」をGoogleマップで検索します。各結果について、詳細パネルにクリックして名前、住所、電話番号、ウェブサイト、評価、レビュー数を抽出します。
websiteがnullの場合のみレコードを返します — これらはウェブプレゼンスの助けが必要なリードです。
得られる結果
json
// スキーマは規範的であり、フィールド値は例示的です。
[
{
"name": "Terrible Love",
"category": "コーヒーショップ",
"address": "3908 Avenue B",
"phone": null,
"website": null,
"rating": 4.9,
"review_count": null,
"url": "https://www.google.com/maps/place/Terrible+Love/..."
},
{
"name": "Flora Coffee & Culture",
"category": "コーヒーショップ",
"address": "3300 W Anderson Ln. Suite 300",
"phone": null,
"website": null,
"rating": 4.9,
"review_count": null,
"url": "https://www.google.com/maps/place/Flora+Coffee+%26+Culture/..."
}
]
Scrapeless Scraping Browserは、クラウドブラウザ内でマップのJavaScript重のレンダリングを処理し、インフラを管理する必要がありません。195以上の国にある住宅用プロキシを使用すると、任意のローカル市場に結果を絞り込むことができます。一つの注意点: phone、website、および review_countは、詳細パネル上でnullになる場合があります — マップは常にそれらを表示するわけではないため、nullを「リストされていない」と見なすのではなく、「確認されていない」と見なして、高価値のリードのために二次確認ステップを計画してください。
4. マーケットプレイスにおける競合リサーチ
同じ製品キーワードをAmazon、eBay、AliExpressで1つのエージェント実行で取得し、価格のばらつき、評価、売り手の位置をマッピングします。
使用するツール
browser_create— Scrapeless Scraping Browserクラウドブラウザセッションを開くbrowser_goto— 各マーケットプレイスの検索または製品URLに移動browser_wait_for— 動的リスティングデータがレンダリングされるのを待つbrowser_get_html— 各ページから完全にレンダリングされたHTMLをキャプチャgoogle_trends— キーワード需要を検証し、各市場における地域的な検索興味を比較browser_close— すべてのページが完了したらセッションをきれいに終了
参考実装: amazon-scraper, ebay-scraper, aliexpress-scraper
サンプルプロンプト
Scrapeless MCPサーバーを使用して、Amazon、eBay、およびAliExpressで「PlayStation 5コンソール」を検索します。各マーケットプレイスについて、製品名、価格、星評価、レビュー数、売り手、リスティングURLを収集します。そして、
google_trendsを使用して、米国、英国、ドイツにおける同じキーワードの検索興味を比較します。価格のばらつきと評価の分布を一目で把握するために、統一されたJSON配列を返します — マーケットプレイスごとに1つのオブジェクト。
得られる結果
json
// スキーマは規範的であり、フィールド値は例示的です。
[
{
"marketplace": "amazon",
"name": "PlayStation 5 Console (PS5)",
"stars": "5つ星中4.8",
"rating_count": "9,180のグローバル評価",
"asin": "B0BCNKKZ91"
},
{
"marketplace": "ebay",
"name": "ソニー PlayStation 5 コンソール ディスク版 – 1TB",
"price_original": "US $499.00",
"seller_name": "electronics_depot",
"url": "https://www.ebay.com/itm/177439887865"
},
{
"marketplace": "aliexpress",
"info": {
"name": "PlayStation 5 コンソール ゲームホスト PS5 ディスク版",
"rate": 4.8,
"reviews": 312,
"link": "https://www.aliexpress.com/item/3256807619226115.html"
},
"pricing": { "price": 389.99 }
}
]
各マーケットプレイスは異なるスキーマを提供しています — Amazonはasinをstarsおよびrating_countとともに強調し、eBayはprice_originalとseller_nameを表示し、AliExpressはフィールドをinfoおよびpricingの下にネストします — Scrapeless Scraping Browserは、すべての3つの違いを処理し、エージェントがそれを正規化します。195以上の国にある住宅用プロキシを用いて地域特有のストアフロントをターゲットにし、google_trendsはどのマーケットプレイスもネイティブに露出していない需要信号を追加します。結果はエージェントのコンテキストに構造化されたJSONとして着地し、スプレッドシートのピボットまたは価格ダッシュボードに準備が整います。
5. Instagramプロフィールとハッシュタグの発見
AIエージェントを公開のInstagramプロフィールまたはハッシュタグページに指向し、構造化されたインフルエンサー発見シグナルを返します — フォロワー数、投稿数、エンゲージメント、最近の公的投稿。
使用するツール
Here is the translation of the specified terms into Japanese:
-
browser_create: ブラウザ作成 -
browser_goto: ブラウザ移動 -
browser_wait_for: ブラウザ待機 -
browser_scroll: ブラウザスクロール -
browser_get_html: ブラウザHTML取得 -
browser_close: ブラウザ閉じる
5つのユースケース、1つのツールセット:それぞれが単一のプロンプトに集約され、クラウドブラウザセッションを開き、ページをレンダリングし、エージェントが利用できる構造化されたJSONを返します。このパターンは常に、最初に発見し、その後抽出することです。ターゲットオーディエンスに近いプロキシ国を設定し、セッション作業を1つのプロンプト内に留め、欠如しているフィールドを nullableとして扱います。目標に最も近いユースケースから始め、その後次のユースケースのために同じインストールを再利用します。より深いステップバイステップの構築については、Scrapeless MCPサーバーの概要を参照し、料金ページでプランを比較してください。
AI駆動のデータパイプラインの構築を準備していますか?
無料プランを取得し、MCP駆動の抽出パイプラインを構築している開発者とつながるには、私たちのコミュニティに参加してください:Discord · Telegram。
Scrapeless公式ウェブサイトにサインアップして、無料のスクレイピングブラウザランタイムを取得し、上記のプロンプトをあなたのパイプラインが必要とするサイト、クエリ、地域に適応させてください。
Scrapelessでは、適用される法律、規制、およびWebサイトのプライバシーポリシーを厳密に遵守しながら、公開されているデータのみにアクセスします。 このブログのコンテンツは、デモンストレーションのみを目的としており、違法または侵害の活動は含まれません。 このブログまたはサードパーティのリンクからの情報の使用に対するすべての責任を保証せず、放棄します。 スクレイピング活動に従事する前に、法律顧問に相談し、ターゲットウェブサイトの利用規約を確認するか、必要な許可を取得してください。



