🎯 Trình duyệt đám mây tùy chỉnh, chống phát hiện được hỗ trợ bởi Chromium tự phát triển, thiết kế dành cho trình thu thập dữ liệu webtác nhân AI. 👉Dùng thử ngay
Quay lại blog

Trình thu thập dữ liệu trò chuyện LLM không nhúng mã lỗi

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

10-Dec-2025

Khi tìm kiếm AI thay thế các công cụ tìm kiếm truyền thống, nhiều truy vấn của người dùng, nội dung và việc ra quyết định diễn ra bên trong các mô hình như ChatGPT, Perplexity, Copilot, Gemini và Google AI Overviews.
Các thương hiệu và nhóm cần một cách để thu thập, phân tích và theo dõi các thông tin chi tiết theo thời gian thực từ những công cụ AI này—bao gồm các truy vấn, câu trả lời, trích dẫn, xếp hạng, xu hướng và đề cập đến các đối thủ cạnh tranh.

API LLM Chat Scraper được xây dựng cho mục đích này.

Nó cung cấp một giao diện thu thập dữ liệu hợp nhất để trích xuất dữ liệu có cấu trúc, theo thời gian thực từ tất cả các mô hình AI chính—cho phép bạn sử dụng kết quả cho GEO (Tối ưu hóa động cơ tạo sinh), theo dõi đối thủ, tối ưu hóa chiến lược nội dung và trí tuệ tìm kiếm.


Bắt đầu

Việc sử dụng API LLM Chat Scraper bao gồm hai bước đơn giản:


Bước 1: Tạo một nhiệm vụ

Gửi một yêu cầu POST để tạo một nhiệm vụ thu thập dữ liệu.
Nếu webhook.url được chỉ định, kết quả sẽ tự động được gửi khi nhiệm vụ hoàn thành.

Ví dụ Yêu cầu

bash Copy
curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}' \
--data '{
  "actor": "scraper.chatgpt",
  "input": {
    "prompt": "Dịch vụ proxy đáng tin cậy nhất để trích xuất dữ liệu",
    "country": "US",
    "web_search": true
  },
  "webhook": {
    "url": "http://www.youwebhook.com"
  }
}'

Bước 2: Lấy Kết Quả

Kết quả được lưu trong 5 phút. Đảm bảo lấy chúng kịp thời.

Ví dụ Yêu cầu

bash Copy
curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}'

Thông số chung

Thông số Loại Bắt buộc Mô tả
actor chuỗi đúng Loại trình thu thập (ví dụ: scraper.chatgpt)
webhook đối tượng sai Cấu hình webhook
webhook.url chuỗi sai URL để gửi kết quả nhiệm vụ
input đối tượng đúng Các trường đầu vào cụ thể của nhiệm vụ

Cấu trúc Dữ liệu Kết quả

Trường Loại Bắt buộc Mô tả
status chuỗi đúng Trạng thái nhiệm vụ: đang chờ / đang chạy / thành công / thất bại
message chuỗi sai Thông báo lỗi (nếu có)
task_result đối tượng sai Các trường kết quả cuối cùng (thay đổi tùy theo actor)

Định dạng Đẩy Webhook

Nếu webhook.url được chỉ định, API sẽ gửi kết quả qua POST.

Trường Loại Bắt buộc Mô tả
task_id chuỗi đúng ID Nhiệm vụ Độc nhất
status chuỗi đúng thành công hoặc thất bại
input chuỗi đúng Các tham số yêu cầu ban đầu dưới dạng chuỗi JSON
task_result đối tượng sai Tải trọng kết quả

Mã Trạng thái HTTP

Mã Trạng thái Mô tả
200 Lấy kết quả thành công
201 Tạo nhiệm vụ thành công
202 Nhiệm vụ vẫn đang chạy
400 Yêu cầu không hợp lệ
410 Nhiệm vụ đã hết hạn (lưu trữ trong 12 giờ)
429 Quá nhiều yêu cầu

Tổng quan về Trình thu thập

Dưới đây là các trình thu thập mô hình AI được hỗ trợ và các định dạng dữ liệu của chúng.


1. Trình thu thập ChatGPT

Các Thông số trong Body

Thông số Loại Bắt buộc Mô tả
prompt chuỗi đúng Lời nhắc của người dùng
country chuỗi đúng Quốc gia/Khu vực
web_search boolean sai Kích hoạt tìm kiếm trình duyệt tích hợp

Các Trường Phản hồi

Trường Mô tả
prompt Lời nhắc gốc
result_text Phản hồi định dạng Markdown
model Mô hình được sử dụng (ví dụ: gpt-5-1)
web_search Liệu tìm kiếm có được kích hoạt hay không
links Các liên kết đã trích xuất
search_result Kết quả tìm kiếm trên web
content_references Các trích dẫn nguồn

2. Trình thu thập Perplexity

Các Trường Phản hồi Chính

  • prompt
  • result_text
  • related_prompt (các câu hỏi liên quan)
  • web_results (tiêu đề, URL, đoạn trích)
  • media_items (video, bản đồ, hình ảnh)
  • locations (lat/lng, mô tả, danh mục, địa chỉ)
    Hỗ trợ dữ liệu có cấu trúc phong phú cho du lịch, thông tin địa phương, tin tức và các chủ đề đang thịnh hành.

3. Copilot Scraper

Hỗ trợ nhiều chế độ:
tìm kiếm, thông minh, trò chuyện, lập luận, học tập

Tham số cơ thể

Tham số Mô tả
nhắc nhở Nhắc nhở đầu vào
quốc gia JP và TW không được hỗ trợ
chế độ tìm kiếm / thông minh / trò chuyện / lập luận / học tập

Trường dữ liệu phản hồi

  • result_text
  • nhắc nhở
  • chế độ
  • liên kết
  • trích dẫn

4. Gemini Scraper

Trường dữ liệu phản hồi

  • result_text
  • nhắc nhở
  • trích dẫn (favicon, điểm nổi bật, đoạn trích, tên website)

Hỗ trợ các cấu trúc trích dẫn phong phú tương tự như phản hồi của Google Gemini.


5. Google AI Mode Scraper

Được sử dụng để lấy dữ liệu từ Google AI Overviews / AIO responses.

Trường dữ liệu phản hồi

Trường Mô tả
result_text Câu trả lời chính của AI
result_html HTML thô
raw_url URL nguồn
trích dẫn Dữ liệu trích dẫn với hình thu nhỏ
tìm kiếm kết quả Kết quả tìm kiếm truyền thống (nếu có)

Giúp & Câu hỏi thường gặp

Thanh toán

Nếu kết quả được tạo nhưng không được truy xuất trong vòng 5 phút, yêu cầu vẫn bị tính phí.
Để tránh lãng phí:

  • Truy xuất kết quả ngay lập tức, hoặc
  • Cấu hình một webhook để tự động nhận kết quả

Nguồn dữ liệu

Chúng tôi chỉ lấy dữ liệu công khai, không cần đăng nhập, đảm bảo tuân thủ và bảo vệ quyền riêng tư.


Các quốc gia / khu vực hỗ trợ

(Danh sách một phần dưới đây)

Quốc gia / Khu vực
Áo AT
Úc AU
Bỉ BE
Nhật Bản JP
Singapore SG
Đài Loan TW
Hoa Kỳ US

Danh sách đầy đủ với hơn 195 quốc gia có sẵn theo yêu cầu.


Kết luận

API LLM Chat Scraper mang đến cho các đội khả năng:

  • Theo dõi nhắc đến thương hiệu trên tất cả các nền tảng trò chuyện AI
  • Theo dõi sự hiện diện và xếp hạng của đối thủ trong các câu trả lời AI
  • Phân tích đầu ra của mô hình, trích dẫn và xu hướng
  • Xây dựng chiến lược GEO (Tối ưu hóa động)
  • Tự động hóa các đường ống thông tin thời gian thực
  • Truy cập dữ liệu có cấu trúc từ toàn bộ hệ sinh thái tìm kiếm AI

Nó không chỉ là một công cụ lấy dữ liệu—nó là một tầng hạ tầng dữ liệu cho Kỷ nguyên Tìm kiếm AI.

Liên hệ với chúng tôi để mở khóa giải pháp dữ liệu GEO đầy đủ —
để mỗi đoạn nội dung được hỗ trợ bởi dữ liệu, phù hợp với hành vi của thuật toán, và được định vị để phát triển đo lường được.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục