Trình thu thập dữ liệu trò chuyện LLM không nhúng mã lỗi

Sophia Martinez

Specialist in Anti-Bot Strategies

10-Dec-2025

Khi tìm kiếm AI thay thế các công cụ tìm kiếm truyền thống, nhiều truy vấn của người dùng, nội dung và việc ra quyết định diễn ra bên trong các mô hình như ChatGPT, Perplexity, Copilot, Gemini và Google AI Overviews.
Các thương hiệu và nhóm cần một cách để thu thập, phân tích và theo dõi các thông tin chi tiết theo thời gian thực từ những công cụ AI này—bao gồm các truy vấn, câu trả lời, trích dẫn, xếp hạng, xu hướng và đề cập đến các đối thủ cạnh tranh.

API LLM Chat Scraper được xây dựng cho mục đích này.

Nó cung cấp một giao diện thu thập dữ liệu hợp nhất để trích xuất dữ liệu có cấu trúc, theo thời gian thực từ tất cả các mô hình AI chính—cho phép bạn sử dụng kết quả cho GEO (Tối ưu hóa động cơ tạo sinh), theo dõi đối thủ, tối ưu hóa chiến lược nội dung và trí tuệ tìm kiếm.

Bắt đầu

Việc sử dụng API LLM Chat Scraper bao gồm hai bước đơn giản:

Bước 1: Tạo một nhiệm vụ

Gửi một yêu cầu POST để tạo một nhiệm vụ thu thập dữ liệu.
Nếu webhook.url được chỉ định, kết quả sẽ tự động được gửi khi nhiệm vụ hoàn thành.

Ví dụ Yêu cầu

bash Copy

curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}' \
--data '{
  "actor": "scraper.chatgpt",
  "input": {
    "prompt": "Dịch vụ proxy đáng tin cậy nhất để trích xuất dữ liệu",
    "country": "US",
    "web_search": true
  },
  "webhook": {
    "url": "http://www.youwebhook.com"
  }
}'

Bước 2: Lấy Kết Quả

Kết quả được lưu trong 5 phút. Đảm bảo lấy chúng kịp thời.

Ví dụ Yêu cầu

bash Copy

curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}'

Thông số chung

Thông số	Loại	Bắt buộc	Mô tả
actor	chuỗi	đúng	Loại trình thu thập (ví dụ: scraper.chatgpt)
webhook	đối tượng	sai	Cấu hình webhook
webhook.url	chuỗi	sai	URL để gửi kết quả nhiệm vụ
input	đối tượng	đúng	Các trường đầu vào cụ thể của nhiệm vụ

Cấu trúc Dữ liệu Kết quả

Trường	Loại	Bắt buộc	Mô tả
status	chuỗi	đúng	Trạng thái nhiệm vụ: đang chờ / đang chạy / thành công / thất bại
message	chuỗi	sai	Thông báo lỗi (nếu có)
task_result	đối tượng	sai	Các trường kết quả cuối cùng (thay đổi tùy theo actor)

Định dạng Đẩy Webhook

Nếu webhook.url được chỉ định, API sẽ gửi kết quả qua POST.

Trường	Loại	Bắt buộc	Mô tả
task_id	chuỗi	đúng	ID Nhiệm vụ Độc nhất
status	chuỗi	đúng	thành công hoặc thất bại
input	chuỗi	đúng	Các tham số yêu cầu ban đầu dưới dạng chuỗi JSON
task_result	đối tượng	sai	Tải trọng kết quả

Mã Trạng thái HTTP

Mã Trạng thái	Mô tả
200	Lấy kết quả thành công
201	Tạo nhiệm vụ thành công
202	Nhiệm vụ vẫn đang chạy
400	Yêu cầu không hợp lệ
410	Nhiệm vụ đã hết hạn (lưu trữ trong 12 giờ)
429	Quá nhiều yêu cầu

Tổng quan về Trình thu thập

Dưới đây là các trình thu thập mô hình AI được hỗ trợ và các định dạng dữ liệu của chúng.

1. Trình thu thập ChatGPT

Các Thông số trong Body

Thông số	Loại	Bắt buộc	Mô tả
prompt	chuỗi	đúng	Lời nhắc của người dùng
country	chuỗi	đúng	Quốc gia/Khu vực
web_search	boolean	sai	Kích hoạt tìm kiếm trình duyệt tích hợp

Các Trường Phản hồi

Trường	Mô tả
prompt	Lời nhắc gốc
result_text	Phản hồi định dạng Markdown
model	Mô hình được sử dụng (ví dụ: gpt-5-1)
web_search	Liệu tìm kiếm có được kích hoạt hay không
links	Các liên kết đã trích xuất
search_result	Kết quả tìm kiếm trên web
content_references	Các trích dẫn nguồn

2. Trình thu thập Perplexity

Các Trường Phản hồi Chính

prompt
result_text
related_prompt (các câu hỏi liên quan)
web_results (tiêu đề, URL, đoạn trích)
media_items (video, bản đồ, hình ảnh)
locations (lat/lng, mô tả, danh mục, địa chỉ)
Hỗ trợ dữ liệu có cấu trúc phong phú cho du lịch, thông tin địa phương, tin tức và các chủ đề đang thịnh hành.

3. Copilot Scraper

Hỗ trợ nhiều chế độ:
tìm kiếm, thông minh, trò chuyện, lập luận, học tập

Tham số cơ thể

Tham số	Mô tả
nhắc nhở	Nhắc nhở đầu vào
quốc gia	JP và TW không được hỗ trợ
chế độ	tìm kiếm / thông minh / trò chuyện / lập luận / học tập

Trường dữ liệu phản hồi

result_text
nhắc nhở
chế độ
liên kết
trích dẫn

4. Gemini Scraper

Trường dữ liệu phản hồi

result_text
nhắc nhở
trích dẫn (favicon, điểm nổi bật, đoạn trích, tên website)

Hỗ trợ các cấu trúc trích dẫn phong phú tương tự như phản hồi của Google Gemini.

5. Google AI Mode Scraper

Được sử dụng để lấy dữ liệu từ Google AI Overviews / AIO responses.

Trường dữ liệu phản hồi

Trường	Mô tả
result_text	Câu trả lời chính của AI
result_html	HTML thô
raw_url	URL nguồn
trích dẫn	Dữ liệu trích dẫn với hình thu nhỏ
tìm kiếm kết quả	Kết quả tìm kiếm truyền thống (nếu có)

Giúp & Câu hỏi thường gặp

Thanh toán

Nếu kết quả được tạo nhưng không được truy xuất trong vòng 5 phút, yêu cầu vẫn bị tính phí.
Để tránh lãng phí:

Truy xuất kết quả ngay lập tức, hoặc
Cấu hình một webhook để tự động nhận kết quả

Nguồn dữ liệu

Chúng tôi chỉ lấy dữ liệu công khai, không cần đăng nhập, đảm bảo tuân thủ và bảo vệ quyền riêng tư.

Các quốc gia / khu vực hỗ trợ

(Danh sách một phần dưới đây)

Quốc gia / Khu vực	Mã
Áo	AT
Úc	AU
Bỉ	BE
Nhật Bản	JP
Singapore	SG
Đài Loan	TW
Hoa Kỳ	US
…	…

Danh sách đầy đủ với hơn 195 quốc gia có sẵn theo yêu cầu.

Kết luận

API LLM Chat Scraper mang đến cho các đội khả năng:

Theo dõi nhắc đến thương hiệu trên tất cả các nền tảng trò chuyện AI
Theo dõi sự hiện diện và xếp hạng của đối thủ trong các câu trả lời AI
Phân tích đầu ra của mô hình, trích dẫn và xu hướng
Xây dựng chiến lược GEO (Tối ưu hóa động)
Tự động hóa các đường ống thông tin thời gian thực
Truy cập dữ liệu có cấu trúc từ toàn bộ hệ sinh thái tìm kiếm AI

Nó không chỉ là một công cụ lấy dữ liệu—nó là một tầng hạ tầng dữ liệu cho Kỷ nguyên Tìm kiếm AI.

Liên hệ với chúng tôi để mở khóa giải pháp dữ liệu GEO đầy đủ —
để mỗi đoạn nội dung được hỗ trợ bởi dữ liệu, phù hợp với hành vi của thuật toán, và được định vị để phát triển đo lường được.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục