Grok スクラパー API を使用して Grok の回答をスクレイピングする方法
Specialist in Anti-Bot Strategies
TL;DR
- GrokスクレイパーAPIは、xAIの回答とそのソースパネルの両方をデータとして返します。
scraper.grokアクターにPOSTすることで、完全な回答とweb_search_results、x_search_results— Grokが引用したオープンウェブページとX(Twitter)投稿 — を別々の配列としてキャッチします。 - 三つの入力、うち一つは珍しい。
promptは質問を運び、countryは居住地の出口を特定し、必要な推論mode—MODEL_MODE_FAST、MODEL_MODE_EXPERT、またはMODEL_MODE_AUTO— はGrokが回答する前の思考の深さを制御します。 - Xの引用が差別化要因。 Grokはライブウェブ検索とXのリアルタイムフィードを組み合わせており、回答テキストだけをキャッチすると、その信憑性を伝えるデータの半分が失われます。
- エンベロープは他のLLMアクターと一致。
{ status, task_id, task_result }、一つのx-api-token、同じエンドポイント — ChatGPTキャプチャクライアントは、アクター名を変更し、modeを追加することでGrokに拡張します。 - 実行メタデータが無料で付随。 フォローアップ提案、脚注、トークンカウント、および実行の会話識別子が同じペイロードで到着し、監査トレイルの準備が整います。
- 始めるのは無料。 新しいScrapelessアカウントには無料トライアルクレジットが含まれています — app.scrapeless.comでサインアップします。
イントロダクション:内部にソーシャルフィードを持つ回答エンジン
Grokは、他の主要アシスタントが組み合わせない二つのソースタイプを融合させて質問に回答します:ライブウェブ検索とXから直接引き出された投稿。どのツールを買うべきか、どのAPIが信頼できるか、どのブランドを信頼するかを尋ねると、返答はウェブページとXの投稿を一つの引用された回答に折り込んでいます。ブランドがAIの回答にどのように現れるかを追跡している人にとって、これによりGrokは独特の表面を形成します — 引用にはソーシャルな会話が含まれ、単にインデックスされたウェブだけではありません。
手動でその回答をキャッチすることは一般的な物語です:ログインが必要なインターフェース、ストリーミング出力、地理的に敏感な回答、そして解析を意図していないDOM。Grokは独自のひねりを加えます — 推論モードが回答を変え、そのためキャプチャパイプラインはそれを明示的に制御する必要があります。
scraper.grokアクターは、これを一つのHTTPリクエストに変換します:入力はprompt、country、modeで、出力は構造化された回答と両方の引用パネルです。このガイドでは、リクエストの形状、応答のスキーマ、実行可能なPythonクライアント、AI回答の残りの範囲をカバーする補助アクターについて説明します。カテゴリーのランク付きビューについては、ベストLLMスクレイパーズガイドを参照してください。
これでできること
- 二つのパネルに渡る引用のシェアを追跡。 時間をかけて固定されたプロンプトセットにおいて
web_search_resultsに表示されるドメインとx_search_resultsに表示されるアカウントを数えます。 - Xがナラティブを駆動するブランドモニタリング。 Xでまず感情が形成されるカテゴリについて、Grokの引用はどの投稿がモデルの回答を形成しているかを示します。
- 推論モードの比較。
FAST、EXPERT、およびAUTOで同じプロンプトをキャッチし、深さが回答とソースにどのように影響するかを測定します。 - マルチマーケットキャプチャ。 各国ごとにランを固定し、同じ質問についてGrokが異なる市場に何を伝えているかを比較します。
- 競争的回答分析。 Grokがいつ製品を推奨し始めたり止めたりするかを追跡し、その変化を支える引用にトレースをかけます。
- データセットの構築。 プロンプト–回答–パネルのトリプルをクリーンなJSONとして保存し、縦の分析を行います。
なぜScrapeless Grokスクレイパーなのか
scraper.grokアクターは、ユニバーサルスクレイピングAPIライン内のScrapeless LLM Chat Scraperファミリーの一部です:
- 両方の引用パネルが独立した配列として。 オープンウェブソースとX投稿が別々に到着します — 引用シェアのレポートは、再解析なしで各パネルを直接読み取ります。
- 推論モードが主要な入力。 各実行においてGrokがどれだけ深く考えるかを決定し、それにより計画的なシリーズが方法論的に一貫します。
- 国に固定された居住出口。 実行は195か国以上の居住プロキシを経由し、特定の地域における回答が再現可能です。
- プラットフォーム全体で一つの契約。 同じエンドポイント、ヘッダー、及び
{ status, task_id, task_result }のエンベロープがChatGPT、Gemini、Perplexity、そしてCopilotアクターをカバーします。
パラメーターの参照はLLM Chat Scraperドキュメントにあります。
前提条件
- ScrapelessアカウントとAPIキー — app.scrapeless.comでサインアップしてください。
- クイックテスト用の
curlまたは、以下のクライアント用のPython 3.10以上。 - HTTPとJSONの基本的な知識。
キーを環境に保存して、コードに埋め込まれないようにします:
bash
export SCRAPELESS_API_KEY=your_api_token_here
Grokスクレイパーの仕組み
- エンドポイント:
POST https://api.scrapeless.com/api/v2/scraper/execute - アクター:
scraper.grok - 認証ヘッダー:
x-api-token: $SCRAPELESS_API_KEY
リクエストパラメータ
| 入力フィールド | 必須 | 説明 |
|---|---|---|
prompt |
はい | Grokに送信する質問 |
country |
はい | 実行の居住出口の2文字国コード(例:US;JPとTWは使用不可) |
mode |
はい | 推論の深さ:MODEL_MODE_FAST、MODEL_MODE_EXPERT、またはMODEL_MODE_AUTO |
curlを使った簡単なキャプチャ
bash
curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: ${SCRAPELESS_API_KEY}" \
-d '{
"actor": "scraper.grok",
"input": {
"prompt": "JavaScriptが重いサイトを扱うWebスクレイピングAPIはどれですか?",
"country": "US",
"mode": "MODEL_MODE_EXPERT"
}
}'
レスポンスエンベロープ
json
// 例示的なサンプル — live scraper.grok実行からのスキーマ;値は省略
{
"status": "success",
"task_id": "52fc9c96-…",
"task_result": {
"user_query": "JavaScriptが重いサイトを扱うWebスクレイピングAPIはどれですか?",
"full_response": "JavaScriptが重いサイトに対しては、保持されるオプションは…",
"web_search_results": [
{ "title": "…", "url": "https://…", "preview": "…", "description": "…", "favicon": "…", "image": "…" }
],
"x_search_results": [],
"follow_up_suggestions": [ "…" ],
"footnotes": [],
"tool_usages": [ "…" ],
"token_count": 1024,
"user_model": "…",
"response_id": "…",
"conversation": { "conversation_id": "…", "title": "…", "create_time": "…" }
}
}
フィールドごとに:
| フィールド | 型 | 内容 |
|---|---|---|
task_result.user_query |
文字列 | Grokが受け取ったプロンプト |
task_result.full_response |
文字列 | Grokの完全な回答テキスト |
task_result.web_search_results[] |
配列 | オープンウェブの引用 — title、url、preview、および存在する場合はdescription、favicon、image |
task_result.x_search_results[] |
配列 | Grokが引用したX投稿;プロンプトがソーシャルソースを引っ張らなかった場合は空 |
task_result.follow_up_suggestions[] |
配列 | 答えの後にGrokが提案するフォローアップ質問 |
task_result.footnotes[] |
配列 | 答えに含まれる脚注エントリ |
task_result.tool_usages[] |
配列 | 実行で呼び出されたツール(検索、ブラウズ) |
task_result.token_count |
数値 | 実行のトークン使用量 |
task_result.conversation |
オブジェクト | 実行識別子 — conversation_id、title、タイムスタンプ — 監査キーとして役立つ |
無料プランでAPIキーを取得: app.scrapeless.com
PythonでのAPIの統合
完全なクライアント:プロンプトを送信し、エンベロープを確認し、両方の引用パネルを印刷します。
python
import os
import requests
ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
def ask_grok(prompt: str, country: str = "US", mode: str = "MODEL_MODE_EXPERT") -> dict:
resp = requests.post(
ENDPOINT,
headers={
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
},
json={
"actor": "scraper.grok",
"input": {"prompt": prompt, "country": country, "mode": mode},
},
timeout=300,
)
resp.raise_for_status()
return resp.json()
if __name__ == "__main__":
data = ask_grok("JavaScriptが重いサイトを扱うWebスクレイピングAPIはどれですか?")
result = data.get("task_result", {})
web = result.get("web_search_results") or []
x = result.get("x_search_results") or []
print(f"status={data.get('status')} web_sources={len(web)} x_sources={len(x)}")
for i, src in enumerate(web[:5], 1):
print(f" [web {i}] {src.get('title', '')[:60]} → {src.get('url', '')[:60]}")
for i, post in enumerate(x[:5], 1):
print(f" [x {i}] {str(post)[:80]}")
引用の共有作業のために、web_search_resultsのURLをドメイン別に、x_search_resultsをアカウント別にグループ化し、プロンプトごとにカウントします — 両方のパネルは独立した信号であり、別々にチャートする価値があります。
推論モードの選択
必須のmodeは、ChatGPTの対応するものがない入力であり、レイテンシーと出力の両方を変化させます:
MODEL_MODE_FAST— 最も早い回答;ブレ幅が深さを上回る高ボリュームのスイープに適しています。MODEL_MODE_EXPERT— より深い推論と通常は豊かな情報源;時間をかけてチャート化するプロンプトに適しています。より長い実行を許可します。MODEL_MODE_AUTO— Grokがプロンプトごとに選択;インタラクティブに便利ですが、モードが一定に保たれるとスケジューリングされたシリーズの解釈が容易になります。
どちらを選んでも、各キャプチャと一緒に保存してください — EXPERT ランと FAST ランを比較することは、異なる 2 つのプロセスを比較することです。
AI回答領域の残りのためのコンパニオンアクター
エンドポイント、ヘッダー、エンベロープはファミリー全体で同じですが、アクター名とプラットフォーム固有の入力のみが変わります:
scraper.chatgpt—prompt+ オプションのcountry;content_references引用と共にresult_textを返します。scraper.gemini— 同じ 2 フィールドの入力;citations配列に加えてresult_textを返します。scraper.perplexity— 必須のcountryとweb_searchフラグ;web_results、media_items、および関連プロンプトを返します。scraper.copilot— 同じ契約の下での Copilot の回答面。scraper.overview/scraper.aimode— Google の AI 概要ブロックと AI モードタブ;AI 概要ガイド で完全にカバーされています。
このラインの料金は使用ベースで、サインアップ時に無料トライアルクレジットが付与されます — 現在のティアは価格ページに掲載されています。
よくある問題を避ける方法
- 空の
x_search_resultsは多くのプロンプトにとって正常です。 技術的および製品に関する質問は、オープンウェブから完全に解決されることがよくあります。人、出来事、感情についてのプロンプトが X 投稿を引き出すものであり、X パネルがポイントの場合はそのように表現してください。 - パネルサイズは実行ごとに変動します。 同じプロンプトが、ある実行で 35 のウェブソースを引用し、次の実行で 20 に引用することがあります。すべてのキャプチャを
conversation_idとともに保存し、シリーズ全体を読み取ってください。 - シリーズ内でモードを一定に保つ。 モードは推論プロセスを変えます。1 つのトラッキングされたプロンプトセット内でモードを混合すると、トレンドラインが解釈不可能になります。
- フィールドを nullable として扱う。
footnotesはしばしば空であり、ウェブソースエントリはdescription/imageを持っていることがあるものの、常にではありません。そしてx_search_resultsは[]の場合があります — 存在するものを読み取ってください。 - 国リストに気を付ける。
countryは必須で、JP/TW は利用できません。報告する市場を選び、シリーズごとに固定してください。
結論:両方のパネル、一つのリクエスト
Grok のキャプチャは 1 つの呼び出しに集約されます:POST { actor: "scraper.grok", input: { prompt, country, mode } } に x-api-token を持ち、回答のために full_response を読み取り、web_search_results と x_search_results を別々の引用信号としてチャート化します。モードを一定に保ち、国を固定し、conversation_id を保存すると、同じクライアントが 1 つのプロンプトからスケジュールされたマルチマーケット監視プログラムまでスケールします。
FAQ
Q: Grok の回答をスクレイピングすることは合法ですか?
アクターは、公に提供された回答コンテンツをキャプチャします。規則は管轄区域やプラットフォームの利用規約によって異なります — 関連する ToS を確認し、使用例に応じて法律顧問に相談してください。特にキャプチャを再配布する前に、GDPR や CCPA によって保護された個人データを収集しないでください。
Q: どのように認証しますか?
すべてのリクエストには x-api-token: <your key> が含まれます。1 つのアカウントキーは scraper.grok および他のすべての Scrapeless アクターをカバーします。app.scrapeless.com で無料プランのキーを作成してください。
Q: プロキシは必要ですか?
いいえ。住宅用出口とジオルーティングはアクターに組み込まれており、必須の country 入力が全体の構成です。
Q: なぜ mode が必須ですか?
Grok の推論の深さは回答を実質的に変えるため、アクターは明示的に指定する代わりに静かにデフォルト設定はしません。コード内では、値は API の列挙体です — MODEL_MODE_FAST、MODEL_MODE_EXPERT、MODEL_MODE_AUTO。
Q: ウェブの引用を X の引用からどのように分離しますか?
すでに分離された形で到着します:web_search_results はオープンウェブのページを保持し、x_search_results は X の投稿を保持します。それぞれの配列を直接読み取ってください。
Q: SDK や AI エージェントなしでこれを実行できますか?
はい。これは単純な HTTP です — curl、Python の requests、Node の fetch、または任意の HTTP クライアントが POST /api/v2/scraper/execute に対して直接機能します。
Q: 私の ChatGPT キャプチャコードは Grok に使えますか?
認証、エンドポイント、エンベロープは同一です。アクター名を変更し、必須の mode と country を追加し、task_result キーをマッピングします(result_text の代わりに full_response、content_references の代わりに 2 つのパネル)。
AI回答データパイプラインを構築する準備はできましたか?
私たちのコミュニティに参加して無料プランを取得し、AI回答パイプラインを構築している開発者とつながりましょう:Discord · Telegram。
app.scrapeless.com で無料トライアルクレジットにサインアップし、scraper.grok アクターを監視プログラムに必要なプロンプト、モード、市場に向けて設定してください。
Scrapelessでは、適用される法律、規制、およびWebサイトのプライバシーポリシーを厳密に遵守しながら、公開されているデータのみにアクセスします。 このブログのコンテンツは、デモンストレーションのみを目的としており、違法または侵害の活動は含まれません。 このブログまたはサードパーティのリンクからの情報の使用に対するすべての責任を保証せず、放棄します。 スクレイピング活動に従事する前に、法律顧問に相談し、ターゲットウェブサイトの利用規約を確認するか、必要な許可を取得してください。



