Cách thu thập câu trả lời Grok bằng API Grok Scraper

Sophia Martinez

Specialist in Anti-Bot Strategies

10-Jun-2026

Tóm tắt

Một API scraper của Grok trả về câu trả lời của xAI với cả hai bảng nguồn dữ liệu. Một POST đến actor scraper.grok ghi lại câu trả lời đầy đủ cộng với web_search_results và x_search_results — các trang web mở và các bài đăng trên X (Twitter) mà Grok đã trích dẫn, dưới dạng mảng riêng biệt.
Ba đầu vào, một trong số đó là bất thường. prompt mang câu hỏi, country chỉ định nơi sinh sống, và một chế độ lý luận yêu cầu — MODEL_MODE_FAST, MODEL_MODE_EXPERT, hoặc MODEL_MODE_AUTO — kiểm soát mức độ tường minh mà Grok lý luận trước khi trả lời.
Các trích dẫn của X là yếu tố phân biệt. Grok kết hợp tìm kiếm web trực tiếp với luồng thời gian thực từ X; việc chỉ nắm bắt nội dung câu trả lời sẽ bỏ đi một nửa dữ liệu cho biết ai đã được ghi nhận.
Vỏ bọc trùng khớp với các actor LLM khác. { status, task_id, task_result }, một x-api-token, cùng một điểm cuối — một client thu thập dữ liệu ChatGPT mở rộng đến Grok bằng cách thay đổi tên actor và thêm mode.
Dữ liệu chạy đi kèm miễn phí. Các đề xuất theo dõi, chú thích, số lượng token và các định danh cuộc trò chuyện của lần chạy đến trong cùng một payload, sẵn sàng cho các dấu vết kiểm toán.
Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm tín dụng dùng thử miễn phí — đăng ký tại app.scrapeless.com.

Giới thiệu: động cơ trả lời với nguồn xã hội bên trong

Grok trả lời các câu hỏi bằng cách kết hợp hai loại nguồn mà không có trợ lý chính nào khác kết hợp: tìm kiếm web trực tiếp và các bài đăng lấy thẳng từ X. Hỏi nó công cụ nào để mua, API nào sẽ hoạt động, thương hiệu nào để tin tưởng, và phản hồi gộp các trang web và các bài đăng trên X thành một câu trả lời đã được trích dẫn. Đối với bất kỳ ai theo dõi cách một thương hiệu xuất hiện trong các câu trả lời AI, điều đó khiến Grok trở thành một bề mặt phân biệt — các trích dẫn bao gồm cuộc trò chuyện xã hội, chứ không chỉ là web đã được lập chỉ mục.

Việc ghi lại những câu trả lời đó bằng tay là câu chuyện thông thường: một giao diện yêu cầu đăng nhập, đầu ra trực tiếp, phản hồi nhạy cảm với địa lý và một DOM mà không bao giờ được thiết kế cho việc phân tích. Và Grok thêm một điểm mới — chế độ lý luận làm thay đổi câu trả lời, vì vậy một đường ống ghi lại cần phải kiểm soát nó một cách rõ ràng.

Actor scraper.grok biến tất cả điều đó thành một yêu cầu HTTP duy nhất: prompt, quốc gia, và chế độ vào; câu trả lời có cấu trúc và cả hai bảng trích dẫn ra. Hướng dẫn này bao gồm hình dạng yêu cầu, sơ đồ phản hồi, một client Python có thể chạy và các actor đồng hành mà bao quát phần còn lại của cảnh đáp ứng AI. Để xem cách xếp hạng của danh mục, xem hướng dẫn các scraper LLM tốt nhất.

Bạn có thể làm gì với nó

Theo dõi tỷ lệ trích dẫn trên hai bảng. Đếm xem miền nào xuất hiện trong web_search_results và tài khoản nào xuất hiện trong x_search_results cho một tập hợp prompt cố định theo thời gian.
Giám sát thương hiệu nơi X dẫn dắt câu chuyện. Đối với các danh mục mà cảm xúc hình thành trên X trước, các trích dẫn của Grok cho thấy các bài đăng nào đang định hình câu trả lời của mô hình.
So sánh chế độ lý luận. Ghi lại cùng một prompt dưới FAST, EXPERT, và AUTO và đo lường cách độ sâu thay đổi câu trả lời và các nguồn.
Ghi lại đa thị trường. Ghi lại các lần chạy theo từng quốc gia và so sánh những gì Grok cho các thị trường khác nhau về cùng một câu hỏi.
Phân tích câu trả lời cạnh tranh. Theo dõi khi nào Grok bắt đầu hoặc ngừng giới thiệu một sản phẩm, và truy nguyên sự thay đổi đến các trích dẫn đằng sau nó.
Xây dựng tập dữ liệu. Lưu trữ các bộ ba prompt–câu trả lời–bảng dưới dạng JSON sạch để phân tích theo chiều dọc.

Tại sao lại là Grok Scraper Scrapeless

Actor scraper.grok là một phần của gia đình Scrapeless LLM Chat Scraper bên trong Universal Scraping API:

Cả hai bảng trích dẫn như các mảng tách biệt. Các nguồn từ web mở và bài đăng trên X đến riêng biệt — một báo cáo tỷ lệ trích dẫn đọc từng bảng trực tiếp, không cần phân tích lại.
Chế độ lý luận là một đầu vào hạng nhất. Bạn quyết định mức độ Grok suy nghĩ cho mỗi lần chạy, điều này giữ cho một chuỗi lịch trình nhất quán về phương pháp.
Nơi cư trú được gắn theo quốc gia. Các lần chạy thông qua proxy dân cư ở hơn 195 quốc gia, vì vậy câu trả lời theo địa phương là có thể tái tạo.
Một hợp đồng trên các nền tảng. Cùng một điểm cuối, tiêu đề, và { status, task_id, task_result } bao bọc các actor ChatGPT, Gemini, Perplexity và Copilot.

Tham chiếu tham số có trong tài liệu LLM Chat Scraper.

Điều kiện tiên quyết

Một tài khoản Scrapeless và API key — đăng ký tại app.scrapeless.com.
curl cho bài kiểm tra nhanh, hoặc Python 3.10+ cho client dưới đây.
Kiến thức cơ bản về HTTP và JSON.
Lưu trữ khóa của bạn trong môi trường để nó không bao giờ xuất hiện trong mã:

bash Copy

export SCRAPELESS_API_KEY=your_api_token_here

Cách hoạt động của Grok Scraper

Endpoint: POST https://api.scrapeless.com/api/v2/scraper/execute
Actor: scraper.grok
Tiêu đề xác thực: x-api-token: $SCRAPELESS_API_KEY

Các tham số yêu cầu

trường đầu vào	yêu cầu	mô tả
`prompt`	có	câu hỏi gửi đến Grok
`country`	có	mã quốc gia hai chữ cái cho việc truy cập của chạy (ví dụ: `US`; JP và TW không khả dụng)
`mode`	có	độ sâu lý luận: `MODEL_MODE_FAST`, `MODEL_MODE_EXPERT`, hoặc `MODEL_MODE_AUTO`

Lấy nhanh bằng curl

bash Copy

curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: ${SCRAPELESS_API_KEY}" \
  -d '{
    "actor": "scraper.grok",
    "input": {
      "prompt": "API web scraping nào xử lý các trang nặng JavaScript?",
      "country": "US",
      "mode": "MODEL_MODE_EXPERT"
    }
  }'

Bao bì phản hồi

json Copy

// mẫu minh họa — sơ đồ từ một buổi chạy scraper.grok trực tiếp; giá trị bị rút gọn
{
  "status": "success",
  "task_id": "52fc9c96-…",
  "task_result": {
    "user_query": "API web scraping nào xử lý các trang nặng JavaScript?",
    "full_response": "Đối với các trang nặng JavaScript, các tùy chọn vẫn được giữ lại là…",
    "web_search_results": [
      { "title": "…", "url": "https://…", "preview": "…", "description": "…", "favicon": "…", "image": "…" }
    ],
    "x_search_results": [],
    "follow_up_suggestions": [ "…" ],
    "footnotes": [],
    "tool_usages": [ "…" ],
    "token_count": 1024,
    "user_model": "…",
    "response_id": "…",
    "conversation": { "conversation_id": "…", "title": "…", "create_time": "…" }
  }
}

Từng trường một:

trường	loại	nội dung chứa
`task_result.user_query`	chuỗi	yêu cầu theo cách Grok nhận được
`task_result.full_response`	chuỗi	văn bản câu trả lời hoàn chỉnh của Grok
`task_result.web_search_results[]`	mảng	các trích dẫn từ web mở — `title`, `url`, `preview`, cùng với `description`, `favicon`, và `image` khi có
`task_result.x_search_results[]`	mảng	các bài viết X mà Grok đã trích dẫn; rỗng khi yêu cầu không thu được nguồn xã hội
`task_result.follow_up_suggestions[]`	mảng	các câu hỏi theo sau mà Grok gợi ý sau câu trả lời
`task_result.footnotes[]`	mảng	các mục chú thích, khi câu trả lời bao gồm chúng
`task_result.tool_usages[]`	mảng	các công cụ mà phiên chạy đã sử dụng (tìm kiếm, duyệt)
`task_result.token_count`	số	mức sử dụng token của phiên chạy
`task_result.conversation`	đối tượng	các chỉ định của phiên chạy — `conversation_id`, `title`, dấu thời gian — hữu ích như các khóa kiểm toán

Nhận khóa API của bạn trên kế hoạch miễn phí: app.scrapeless.com

Tích hợp API trong Python

Một khách hàng hoàn chỉnh: gửi yêu cầu, kiểm tra bao bì, và in cả hai bảng trích dẫn.

python Copy

import os
import requests

ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"


def ask_grok(prompt: str, country: str = "US", mode: str = "MODEL_MODE_EXPERT") -> dict:
    resp = requests.post(
        ENDPOINT,
        headers={
            "Content-Type": "application/json",
            "x-api-token": os.environ["SCRAPELESS_API_KEY"],
        },
        json={
            "actor": "scraper.grok",
            "input": {"prompt": prompt, "country": country, "mode": mode},
        },
        timeout=300,
    )
    resp.raise_for_status()
    return resp.json()


if __name__ == "__main__":
    data = ask_grok("API web scraping nào xử lý các trang nặng JavaScript?")
    result = data.get("task_result", {})
    web = result.get("web_search_results") or []
    x = result.get("x_search_results") or []
    print(f"status={data.get('status')} web_sources={len(web)} x_sources={len(x)}")
    for i, src in enumerate(web[:5], 1):
        print(f"  [web {i}] {src.get('title', '')[:60]} → {src.get('url', '')[:60]}")
    for i, post in enumerate(x[:5], 1):
        print(f"  [x {i}] {str(post)[:80]}")

Đối với công việc chia sẻ trích dẫn, nhóm các URL web_search_results theo miền và x_search_results theo tài khoản, và đếm theo yêu cầu — hai bảng này là tín hiệu độc lập và đáng để vẽ đồ thị riêng biệt.

Chọn chế độ lý luận

Chế độ mode yêu cầu là đầu vào không có tương đương ChatGPT, và nó thay đổi cả độ trễ và đầu ra:

MODEL_MODE_FAST — câu trả lời nhanh nhất; phù hợp cho các lần thực hiện có khối lượng lớn, trong đó độ rộng hơn độ sâu.
MODEL_MODE_EXPERT — lý luận sâu hơn và thường có nguồn phong phú hơn; phù hợp cho những yêu cầu mà bạn theo dõi theo thời gian. Cho phép chạy lâu hơn.
MODEL_MODE_AUTO — Grok chọn theo từng yêu cầu; thuận tiện khi tương tác, nhưng một chuỗi được lập lịch thì dễ hiểu hơn khi chế độ được giữ cố định.
Bất kể bạn chọn cái nào, hãy lưu trữ nó với mỗi lần chụp — việc so sánh một lần chạy CHUYÊN GIA với một lần chạy NHANH là so sánh hai quy trình khác nhau.

Các diễn viên đồng hành cho phần còn lại của cảnh quan câu trả lời AI

Điểm cuối, tiêu đề và phong bì vẫn giữ nguyên trong cùng một gia đình — chỉ có tên diễn viên và các đầu vào cụ thể cho từng nền tảng là thay đổi:

scraper.chatgpt — prompt + country tùy chọn; trả về result_text với các trích dẫn content_references.
scraper.gemini — đầu vào giống như trên; trả về result_text cộng với một mảng citations.
scraper.perplexity — yêu cầu country và một cờ web_search; trả về web_results, media_items, và các prompt liên quan.
scraper.copilot — bề mặt câu trả lời Copilot dưới cùng một hợp đồng.
scraper.overview / scraper.aimode — khối tổng quan AI của Google và tab Chế độ AI; đã được đề cập từ đầu đến cuối trong hướng dẫn Tổng quan AI.

Giá cả cho dòng sản phẩm dựa trên mức sử dụng với các tín dụng dùng thử miễn phí khi đăng ký — các bậc hiện tại có trên trang giá cả.

Cách tránh các vấn đề thường gặp

Một x_search_results trống là bình thường cho nhiều prompt. Các câu hỏi kỹ thuật và sản phẩm thường được giải quyết hoàn toàn từ web mở. Các prompt về người, sự kiện và cảm xúc là những gì kéo bài viết trên X — điều chỉnh ngôn từ cho phù hợp khi bảng X là trọng tâm.
Kích thước bảng dao động từ lần chạy này sang lần khác. Cùng một prompt có thể trích dẫn 35 nguồn web trong một lần chạy và 20 trong lần tiếp theo. Lưu trữ mỗi lần chụp với conversation_id của nó và đọc cả loạt, không chỉ một lần chạy.
Giữ nguyên chế độ trong một loạt. Chế độ thay đổi quá trình lý luận; trộn lẫn các chế độ trong một tập prompt được theo dõi làm cho các đường xu hướng không thể hiểu được.
Xem các trường như có thể null. footnotes thường trống, các mục nguồn web chỉ thỉnh thoảng mang theo description/image, và x_search_results có thể là [] — đọc những gì có sẵn.
Chú ý danh sách quốc gia. country là yêu cầu và JP/TW không có sẵn; chọn các thị trường bạn báo cáo và giữ cố định trong mỗi loạt.

Kết luận: cả hai bảng, một yêu cầu

Việc ghi lại Grok giảm thành một cuộc gọi: POST { actor: "scraper.grok", input: { prompt, country, mode } } với x-api-token của bạn, đọc full_response để có câu trả lời, và vẽ web_search_results và x_search_results như các tín hiệu trích dẫn riêng biệt. Giữ nguyên chế độ, gắn quốc gia, lưu trữ conversation_id, và cùng một khách hàng có thể mở rộng từ một prompt đến một chương trình giám sát đa thị trường theo lịch trình.

Câu hỏi thường gặp

Q: Việc lấy nội dung câu trả lời Grok có hợp pháp không?

Diễn viên ghi lại nội dung câu trả lời được công khai. Các quy tắc khác nhau tùy theo khu vực pháp lý và theo các điều khoản dịch vụ của nền tảng — xem xét các điều khoản ToS liên quan và tham khảo ý kiến luật sư cho trường hợp sử dụng của bạn, đặc biệt là trước khi phân phối lại các lần chụp. Không bao giờ thu thập dữ liệu cá nhân được bảo vệ theo GDPR hoặc CCPA.

Q: Làm thế nào tôi để xác thực?

Mỗi yêu cầu đều mang theo x-api-token: <your key>. Một khóa tài khoản bao gồm scraper.grok và mọi diễn viên Scrapeless khác. Tạo một khóa trên gói miễn phí tại app.scrapeless.com.

Q: Tôi có cần một proxy không?

Không. Đường ra cư trú và định tuyến địa lý được tích hợp vào diễn viên; đầu vào country là toàn bộ cấu hình.

Q: Tại sao mode lại cần thiết?

Độ sâu lý luận của Grok thay đổi đáng kể câu trả lời, vì vậy diễn viên làm cho điều đó rõ ràng thay vì mặc định im lặng. Trong mã, các giá trị là các enum API — MODEL_MODE_FAST, MODEL_MODE_EXPERT, MODEL_MODE_AUTO.

Q: Làm thế nào tôi có thể tách các trích dẫn web khỏi các trích dẫn X?

Chúng đã đến được tách rời: web_search_results chứa các trang web mở, x_search_results chứa các bài viết X. Đọc từng mảng trực tiếp.

Q: Tôi có thể chạy điều này mà không cần SDK hay đại lý AI không?

Có. Đây là HTTP thông thường — curl, Python requests, Node fetch, hoặc bất kỳ khách hàng HTTP nào hoạt động trực tiếp với POST /api/v2/scraper/execute.

Q: Mã chụp ChatGPT của tôi có hoạt động với Grok không?

Các thông tin xác thực, điểm cuối và phong bì là giống nhau. Thay đổi tên diễn viên, thêm mode và country yêu cầu, và ánh xạ các khóa task_result (full_response thay vì result_text, hai bảng thay vì content_references).

Sẵn sàng xây dựng đường ống dữ liệu câu trả lời AI của bạn?

Tham gia cộng đồng của chúng tôi để yêu cầu một gói miễn phí và kết nối với các nhà phát triển xây dựng các đường ống câu trả lời AI: Discord · Telegram.

Đăng ký tại app.scrapeless.com để nhận tín dụng dùng thử miễn phí, và chỉ định diễn viên scraper.grok cho các prompt, chế độ và thị trường mà chương trình giám sát của bạn cần.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Hướng Dẫn Công Cụ USPS Không Bị Lỗi: Thu Thập Dữ Liệu Vận Chuyển Hiệu Quả & Tuân Thủ cho Hệ Thống B2B

Học cách sử dụng Công cụ Scrapeless USPS để lấy dữ liệu theo dõi cấu trúc, thời gian thực một cách hiệu quả và tuân thủ cho các nền tảng ERP, OMS và SaaS.

Emily Chen

02-Jul-2025

Hướng dẫn Công cụ USPS Không Bị Rác: Trích xuất Dữ liệu Gửi hàng Hiệu quả & Tuân thủ cho Hệ thống B2B

Danh mục