Cách thu thập câu trả lời Grok bằng API Grok Scraper
Specialist in Anti-Bot Strategies
Tóm tắt
- Một API scraper của Grok trả về câu trả lời của xAI với cả hai bảng nguồn dữ liệu. Một POST đến actor
scraper.grokghi lại câu trả lời đầy đủ cộng vớiweb_search_resultsvàx_search_results— các trang web mở và các bài đăng trên X (Twitter) mà Grok đã trích dẫn, dưới dạng mảng riêng biệt. - Ba đầu vào, một trong số đó là bất thường.
promptmang câu hỏi,countrychỉ định nơi sinh sống, và một chế độ lý luận yêu cầu —MODEL_MODE_FAST,MODEL_MODE_EXPERT, hoặcMODEL_MODE_AUTO— kiểm soát mức độ tường minh mà Grok lý luận trước khi trả lời. - Các trích dẫn của X là yếu tố phân biệt. Grok kết hợp tìm kiếm web trực tiếp với luồng thời gian thực từ X; việc chỉ nắm bắt nội dung câu trả lời sẽ bỏ đi một nửa dữ liệu cho biết ai đã được ghi nhận.
- Vỏ bọc trùng khớp với các actor LLM khác.
{ status, task_id, task_result }, mộtx-api-token, cùng một điểm cuối — một client thu thập dữ liệu ChatGPT mở rộng đến Grok bằng cách thay đổi tên actor và thêmmode. - Dữ liệu chạy đi kèm miễn phí. Các đề xuất theo dõi, chú thích, số lượng token và các định danh cuộc trò chuyện của lần chạy đến trong cùng một payload, sẵn sàng cho các dấu vết kiểm toán.
- Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm tín dụng dùng thử miễn phí — đăng ký tại app.scrapeless.com.
Giới thiệu: động cơ trả lời với nguồn xã hội bên trong
Grok trả lời các câu hỏi bằng cách kết hợp hai loại nguồn mà không có trợ lý chính nào khác kết hợp: tìm kiếm web trực tiếp và các bài đăng lấy thẳng từ X. Hỏi nó công cụ nào để mua, API nào sẽ hoạt động, thương hiệu nào để tin tưởng, và phản hồi gộp các trang web và các bài đăng trên X thành một câu trả lời đã được trích dẫn. Đối với bất kỳ ai theo dõi cách một thương hiệu xuất hiện trong các câu trả lời AI, điều đó khiến Grok trở thành một bề mặt phân biệt — các trích dẫn bao gồm cuộc trò chuyện xã hội, chứ không chỉ là web đã được lập chỉ mục.
Việc ghi lại những câu trả lời đó bằng tay là câu chuyện thông thường: một giao diện yêu cầu đăng nhập, đầu ra trực tiếp, phản hồi nhạy cảm với địa lý và một DOM mà không bao giờ được thiết kế cho việc phân tích. Và Grok thêm một điểm mới — chế độ lý luận làm thay đổi câu trả lời, vì vậy một đường ống ghi lại cần phải kiểm soát nó một cách rõ ràng.
Actor scraper.grok biến tất cả điều đó thành một yêu cầu HTTP duy nhất: prompt, quốc gia, và chế độ vào; câu trả lời có cấu trúc và cả hai bảng trích dẫn ra. Hướng dẫn này bao gồm hình dạng yêu cầu, sơ đồ phản hồi, một client Python có thể chạy và các actor đồng hành mà bao quát phần còn lại của cảnh đáp ứng AI. Để xem cách xếp hạng của danh mục, xem hướng dẫn các scraper LLM tốt nhất.
Bạn có thể làm gì với nó
- Theo dõi tỷ lệ trích dẫn trên hai bảng. Đếm xem miền nào xuất hiện trong
web_search_resultsvà tài khoản nào xuất hiện trongx_search_resultscho một tập hợp prompt cố định theo thời gian. - Giám sát thương hiệu nơi X dẫn dắt câu chuyện. Đối với các danh mục mà cảm xúc hình thành trên X trước, các trích dẫn của Grok cho thấy các bài đăng nào đang định hình câu trả lời của mô hình.
- So sánh chế độ lý luận. Ghi lại cùng một prompt dưới
FAST,EXPERT, vàAUTOvà đo lường cách độ sâu thay đổi câu trả lời và các nguồn. - Ghi lại đa thị trường. Ghi lại các lần chạy theo từng quốc gia và so sánh những gì Grok cho các thị trường khác nhau về cùng một câu hỏi.
- Phân tích câu trả lời cạnh tranh. Theo dõi khi nào Grok bắt đầu hoặc ngừng giới thiệu một sản phẩm, và truy nguyên sự thay đổi đến các trích dẫn đằng sau nó.
- Xây dựng tập dữ liệu. Lưu trữ các bộ ba prompt–câu trả lời–bảng dưới dạng JSON sạch để phân tích theo chiều dọc.
Tại sao lại là Grok Scraper Scrapeless
Actor scraper.grok là một phần của gia đình Scrapeless LLM Chat Scraper bên trong Universal Scraping API:
- Cả hai bảng trích dẫn như các mảng tách biệt. Các nguồn từ web mở và bài đăng trên X đến riêng biệt — một báo cáo tỷ lệ trích dẫn đọc từng bảng trực tiếp, không cần phân tích lại.
- Chế độ lý luận là một đầu vào hạng nhất. Bạn quyết định mức độ Grok suy nghĩ cho mỗi lần chạy, điều này giữ cho một chuỗi lịch trình nhất quán về phương pháp.
- Nơi cư trú được gắn theo quốc gia. Các lần chạy thông qua proxy dân cư ở hơn 195 quốc gia, vì vậy câu trả lời theo địa phương là có thể tái tạo.
- Một hợp đồng trên các nền tảng. Cùng một điểm cuối, tiêu đề, và
{ status, task_id, task_result }bao bọc các actor ChatGPT, Gemini, Perplexity và Copilot.
Tham chiếu tham số có trong tài liệu LLM Chat Scraper.
Điều kiện tiên quyết
- Một tài khoản Scrapeless và API key — đăng ký tại app.scrapeless.com.
curlcho bài kiểm tra nhanh, hoặc Python 3.10+ cho client dưới đây.- Kiến thức cơ bản về HTTP và JSON.
Lưu trữ khóa của bạn trong môi trường để nó không bao giờ xuất hiện trong mã:
bash
export SCRAPELESS_API_KEY=your_api_token_here
Cách hoạt động của Grok Scraper
- Endpoint:
POST https://api.scrapeless.com/api/v2/scraper/execute - Actor:
scraper.grok - Tiêu đề xác thực:
x-api-token: $SCRAPELESS_API_KEY
Các tham số yêu cầu
| trường đầu vào | yêu cầu | mô tả |
|---|---|---|
prompt |
có | câu hỏi gửi đến Grok |
country |
có | mã quốc gia hai chữ cái cho việc truy cập của chạy (ví dụ: US; JP và TW không khả dụng) |
mode |
có | độ sâu lý luận: MODEL_MODE_FAST, MODEL_MODE_EXPERT, hoặc MODEL_MODE_AUTO |
Lấy nhanh bằng curl
bash
curl -sS -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: ${SCRAPELESS_API_KEY}" \
-d '{
"actor": "scraper.grok",
"input": {
"prompt": "API web scraping nào xử lý các trang nặng JavaScript?",
"country": "US",
"mode": "MODEL_MODE_EXPERT"
}
}'
Bao bì phản hồi
json
// mẫu minh họa — sơ đồ từ một buổi chạy scraper.grok trực tiếp; giá trị bị rút gọn
{
"status": "success",
"task_id": "52fc9c96-…",
"task_result": {
"user_query": "API web scraping nào xử lý các trang nặng JavaScript?",
"full_response": "Đối với các trang nặng JavaScript, các tùy chọn vẫn được giữ lại là…",
"web_search_results": [
{ "title": "…", "url": "https://…", "preview": "…", "description": "…", "favicon": "…", "image": "…" }
],
"x_search_results": [],
"follow_up_suggestions": [ "…" ],
"footnotes": [],
"tool_usages": [ "…" ],
"token_count": 1024,
"user_model": "…",
"response_id": "…",
"conversation": { "conversation_id": "…", "title": "…", "create_time": "…" }
}
}
Từng trường một:
| trường | loại | nội dung chứa |
|---|---|---|
task_result.user_query |
chuỗi | yêu cầu theo cách Grok nhận được |
task_result.full_response |
chuỗi | văn bản câu trả lời hoàn chỉnh của Grok |
task_result.web_search_results[] |
mảng | các trích dẫn từ web mở — title, url, preview, cùng với description, favicon, và image khi có |
task_result.x_search_results[] |
mảng | các bài viết X mà Grok đã trích dẫn; rỗng khi yêu cầu không thu được nguồn xã hội |
task_result.follow_up_suggestions[] |
mảng | các câu hỏi theo sau mà Grok gợi ý sau câu trả lời |
task_result.footnotes[] |
mảng | các mục chú thích, khi câu trả lời bao gồm chúng |
task_result.tool_usages[] |
mảng | các công cụ mà phiên chạy đã sử dụng (tìm kiếm, duyệt) |
task_result.token_count |
số | mức sử dụng token của phiên chạy |
task_result.conversation |
đối tượng | các chỉ định của phiên chạy — conversation_id, title, dấu thời gian — hữu ích như các khóa kiểm toán |
Nhận khóa API của bạn trên kế hoạch miễn phí: app.scrapeless.com
Tích hợp API trong Python
Một khách hàng hoàn chỉnh: gửi yêu cầu, kiểm tra bao bì, và in cả hai bảng trích dẫn.
python
import os
import requests
ENDPOINT = "https://api.scrapeless.com/api/v2/scraper/execute"
def ask_grok(prompt: str, country: str = "US", mode: str = "MODEL_MODE_EXPERT") -> dict:
resp = requests.post(
ENDPOINT,
headers={
"Content-Type": "application/json",
"x-api-token": os.environ["SCRAPELESS_API_KEY"],
},
json={
"actor": "scraper.grok",
"input": {"prompt": prompt, "country": country, "mode": mode},
},
timeout=300,
)
resp.raise_for_status()
return resp.json()
if __name__ == "__main__":
data = ask_grok("API web scraping nào xử lý các trang nặng JavaScript?")
result = data.get("task_result", {})
web = result.get("web_search_results") or []
x = result.get("x_search_results") or []
print(f"status={data.get('status')} web_sources={len(web)} x_sources={len(x)}")
for i, src in enumerate(web[:5], 1):
print(f" [web {i}] {src.get('title', '')[:60]} → {src.get('url', '')[:60]}")
for i, post in enumerate(x[:5], 1):
print(f" [x {i}] {str(post)[:80]}")
Đối với công việc chia sẻ trích dẫn, nhóm các URL web_search_results theo miền và x_search_results theo tài khoản, và đếm theo yêu cầu — hai bảng này là tín hiệu độc lập và đáng để vẽ đồ thị riêng biệt.
Chọn chế độ lý luận
Chế độ mode yêu cầu là đầu vào không có tương đương ChatGPT, và nó thay đổi cả độ trễ và đầu ra:
MODEL_MODE_FAST— câu trả lời nhanh nhất; phù hợp cho các lần thực hiện có khối lượng lớn, trong đó độ rộng hơn độ sâu.MODEL_MODE_EXPERT— lý luận sâu hơn và thường có nguồn phong phú hơn; phù hợp cho những yêu cầu mà bạn theo dõi theo thời gian. Cho phép chạy lâu hơn.MODEL_MODE_AUTO— Grok chọn theo từng yêu cầu; thuận tiện khi tương tác, nhưng một chuỗi được lập lịch thì dễ hiểu hơn khi chế độ được giữ cố định.
Bất kể bạn chọn cái nào, hãy lưu trữ nó với mỗi lần chụp — việc so sánh một lần chạy CHUYÊN GIA với một lần chạy NHANH là so sánh hai quy trình khác nhau.
Các diễn viên đồng hành cho phần còn lại của cảnh quan câu trả lời AI
Điểm cuối, tiêu đề và phong bì vẫn giữ nguyên trong cùng một gia đình — chỉ có tên diễn viên và các đầu vào cụ thể cho từng nền tảng là thay đổi:
scraper.chatgpt—prompt+countrytùy chọn; trả vềresult_textvới các trích dẫncontent_references.scraper.gemini— đầu vào giống như trên; trả vềresult_textcộng với một mảngcitations.scraper.perplexity— yêu cầucountryvà một cờweb_search; trả vềweb_results,media_items, và các prompt liên quan.scraper.copilot— bề mặt câu trả lời Copilot dưới cùng một hợp đồng.scraper.overview/scraper.aimode— khối tổng quan AI của Google và tab Chế độ AI; đã được đề cập từ đầu đến cuối trong hướng dẫn Tổng quan AI.
Giá cả cho dòng sản phẩm dựa trên mức sử dụng với các tín dụng dùng thử miễn phí khi đăng ký — các bậc hiện tại có trên trang giá cả.
Cách tránh các vấn đề thường gặp
- Một
x_search_resultstrống là bình thường cho nhiều prompt. Các câu hỏi kỹ thuật và sản phẩm thường được giải quyết hoàn toàn từ web mở. Các prompt về người, sự kiện và cảm xúc là những gì kéo bài viết trên X — điều chỉnh ngôn từ cho phù hợp khi bảng X là trọng tâm. - Kích thước bảng dao động từ lần chạy này sang lần khác. Cùng một prompt có thể trích dẫn 35 nguồn web trong một lần chạy và 20 trong lần tiếp theo. Lưu trữ mỗi lần chụp với
conversation_idcủa nó và đọc cả loạt, không chỉ một lần chạy. - Giữ nguyên chế độ trong một loạt. Chế độ thay đổi quá trình lý luận; trộn lẫn các chế độ trong một tập prompt được theo dõi làm cho các đường xu hướng không thể hiểu được.
- Xem các trường như có thể null.
footnotesthường trống, các mục nguồn web chỉ thỉnh thoảng mang theodescription/image, vàx_search_resultscó thể là[]— đọc những gì có sẵn. - Chú ý danh sách quốc gia.
countrylà yêu cầu và JP/TW không có sẵn; chọn các thị trường bạn báo cáo và giữ cố định trong mỗi loạt.
Kết luận: cả hai bảng, một yêu cầu
Việc ghi lại Grok giảm thành một cuộc gọi: POST { actor: "scraper.grok", input: { prompt, country, mode } } với x-api-token của bạn, đọc full_response để có câu trả lời, và vẽ web_search_results và x_search_results như các tín hiệu trích dẫn riêng biệt. Giữ nguyên chế độ, gắn quốc gia, lưu trữ conversation_id, và cùng một khách hàng có thể mở rộng từ một prompt đến một chương trình giám sát đa thị trường theo lịch trình.
Câu hỏi thường gặp
Q: Việc lấy nội dung câu trả lời Grok có hợp pháp không?
Diễn viên ghi lại nội dung câu trả lời được công khai. Các quy tắc khác nhau tùy theo khu vực pháp lý và theo các điều khoản dịch vụ của nền tảng — xem xét các điều khoản ToS liên quan và tham khảo ý kiến luật sư cho trường hợp sử dụng của bạn, đặc biệt là trước khi phân phối lại các lần chụp. Không bao giờ thu thập dữ liệu cá nhân được bảo vệ theo GDPR hoặc CCPA.
Q: Làm thế nào tôi để xác thực?
Mỗi yêu cầu đều mang theo x-api-token: <your key>. Một khóa tài khoản bao gồm scraper.grok và mọi diễn viên Scrapeless khác. Tạo một khóa trên gói miễn phí tại app.scrapeless.com.
Q: Tôi có cần một proxy không?
Không. Đường ra cư trú và định tuyến địa lý được tích hợp vào diễn viên; đầu vào country là toàn bộ cấu hình.
Q: Tại sao mode lại cần thiết?
Độ sâu lý luận của Grok thay đổi đáng kể câu trả lời, vì vậy diễn viên làm cho điều đó rõ ràng thay vì mặc định im lặng. Trong mã, các giá trị là các enum API — MODEL_MODE_FAST, MODEL_MODE_EXPERT, MODEL_MODE_AUTO.
Q: Làm thế nào tôi có thể tách các trích dẫn web khỏi các trích dẫn X?
Chúng đã đến được tách rời: web_search_results chứa các trang web mở, x_search_results chứa các bài viết X. Đọc từng mảng trực tiếp.
Q: Tôi có thể chạy điều này mà không cần SDK hay đại lý AI không?
Có. Đây là HTTP thông thường — curl, Python requests, Node fetch, hoặc bất kỳ khách hàng HTTP nào hoạt động trực tiếp với POST /api/v2/scraper/execute.
Q: Mã chụp ChatGPT của tôi có hoạt động với Grok không?
Các thông tin xác thực, điểm cuối và phong bì là giống nhau. Thay đổi tên diễn viên, thêm mode và country yêu cầu, và ánh xạ các khóa task_result (full_response thay vì result_text, hai bảng thay vì content_references).
Sẵn sàng xây dựng đường ống dữ liệu câu trả lời AI của bạn?
Tham gia cộng đồng của chúng tôi để yêu cầu một gói miễn phí và kết nối với các nhà phát triển xây dựng các đường ống câu trả lời AI: Discord · Telegram.
Đăng ký tại app.scrapeless.com để nhận tín dụng dùng thử miễn phí, và chỉ định diễn viên scraper.grok cho các prompt, chế độ và thị trường mà chương trình giám sát của bạn cần.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.



