Trình thu thập dữ liệu trò chuyện LLM không nhúng mã lỗi
Specialist in Anti-Bot Strategies
Khi tìm kiếm AI thay thế các công cụ tìm kiếm truyền thống, nhiều truy vấn của người dùng, nội dung và việc ra quyết định diễn ra bên trong các mô hình như ChatGPT, Perplexity, Copilot, Gemini và Google AI Overviews.
Các thương hiệu và nhóm cần một cách để thu thập, phân tích và theo dõi các thông tin chi tiết theo thời gian thực từ những công cụ AI này—bao gồm các truy vấn, câu trả lời, trích dẫn, xếp hạng, xu hướng và đề cập đến các đối thủ cạnh tranh.
API LLM Chat Scraper được xây dựng cho mục đích này.
Nó cung cấp một giao diện thu thập dữ liệu hợp nhất để trích xuất dữ liệu có cấu trúc, theo thời gian thực từ tất cả các mô hình AI chính—cho phép bạn sử dụng kết quả cho GEO (Tối ưu hóa động cơ tạo sinh), theo dõi đối thủ, tối ưu hóa chiến lược nội dung và trí tuệ tìm kiếm.
Bắt đầu
Việc sử dụng API LLM Chat Scraper bao gồm hai bước đơn giản:
Bước 1: Tạo một nhiệm vụ
Gửi một yêu cầu POST để tạo một nhiệm vụ thu thập dữ liệu.
Nếu webhook.url được chỉ định, kết quả sẽ tự động được gửi khi nhiệm vụ hoàn thành.
Ví dụ Yêu cầu
bash
curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}' \
--data '{
"actor": "scraper.chatgpt",
"input": {
"prompt": "Dịch vụ proxy đáng tin cậy nhất để trích xuất dữ liệu",
"country": "US",
"web_search": true
},
"webhook": {
"url": "http://www.youwebhook.com"
}
}'
Bước 2: Lấy Kết Quả
Kết quả được lưu trong 5 phút. Đảm bảo lấy chúng kịp thời.
Ví dụ Yêu cầu
bash
curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {your_api_key}'
Thông số chung
| Thông số | Loại | Bắt buộc | Mô tả |
|---|---|---|---|
| actor | chuỗi | đúng | Loại trình thu thập (ví dụ: scraper.chatgpt) |
| webhook | đối tượng | sai | Cấu hình webhook |
| webhook.url | chuỗi | sai | URL để gửi kết quả nhiệm vụ |
| input | đối tượng | đúng | Các trường đầu vào cụ thể của nhiệm vụ |
Cấu trúc Dữ liệu Kết quả
| Trường | Loại | Bắt buộc | Mô tả |
|---|---|---|---|
| status | chuỗi | đúng | Trạng thái nhiệm vụ: đang chờ / đang chạy / thành công / thất bại |
| message | chuỗi | sai | Thông báo lỗi (nếu có) |
| task_result | đối tượng | sai | Các trường kết quả cuối cùng (thay đổi tùy theo actor) |
Định dạng Đẩy Webhook
Nếu webhook.url được chỉ định, API sẽ gửi kết quả qua POST.
| Trường | Loại | Bắt buộc | Mô tả |
|---|---|---|---|
| task_id | chuỗi | đúng | ID Nhiệm vụ Độc nhất |
| status | chuỗi | đúng | thành công hoặc thất bại |
| input | chuỗi | đúng | Các tham số yêu cầu ban đầu dưới dạng chuỗi JSON |
| task_result | đối tượng | sai | Tải trọng kết quả |
Mã Trạng thái HTTP
| Mã Trạng thái | Mô tả |
|---|---|
| 200 | Lấy kết quả thành công |
| 201 | Tạo nhiệm vụ thành công |
| 202 | Nhiệm vụ vẫn đang chạy |
| 400 | Yêu cầu không hợp lệ |
| 410 | Nhiệm vụ đã hết hạn (lưu trữ trong 12 giờ) |
| 429 | Quá nhiều yêu cầu |
Tổng quan về Trình thu thập
Dưới đây là các trình thu thập mô hình AI được hỗ trợ và các định dạng dữ liệu của chúng.
1. Trình thu thập ChatGPT
Các Thông số trong Body
| Thông số | Loại | Bắt buộc | Mô tả |
|---|---|---|---|
| prompt | chuỗi | đúng | Lời nhắc của người dùng |
| country | chuỗi | đúng | Quốc gia/Khu vực |
| web_search | boolean | sai | Kích hoạt tìm kiếm trình duyệt tích hợp |
Các Trường Phản hồi
| Trường | Mô tả |
|---|---|
| prompt | Lời nhắc gốc |
| result_text | Phản hồi định dạng Markdown |
| model | Mô hình được sử dụng (ví dụ: gpt-5-1) |
| web_search | Liệu tìm kiếm có được kích hoạt hay không |
| links | Các liên kết đã trích xuất |
| search_result | Kết quả tìm kiếm trên web |
| content_references | Các trích dẫn nguồn |
2. Trình thu thập Perplexity
Các Trường Phản hồi Chính
- prompt
- result_text
- related_prompt (các câu hỏi liên quan)
- web_results (tiêu đề, URL, đoạn trích)
- media_items (video, bản đồ, hình ảnh)
- locations (lat/lng, mô tả, danh mục, địa chỉ)
Hỗ trợ dữ liệu có cấu trúc phong phú cho du lịch, thông tin địa phương, tin tức và các chủ đề đang thịnh hành.
3. Copilot Scraper
Hỗ trợ nhiều chế độ:
tìm kiếm, thông minh, trò chuyện, lập luận, học tập
Tham số cơ thể
| Tham số | Mô tả |
|---|---|
| nhắc nhở | Nhắc nhở đầu vào |
| quốc gia | JP và TW không được hỗ trợ |
| chế độ | tìm kiếm / thông minh / trò chuyện / lập luận / học tập |
Trường dữ liệu phản hồi
- result_text
- nhắc nhở
- chế độ
- liên kết
- trích dẫn
4. Gemini Scraper
Trường dữ liệu phản hồi
- result_text
- nhắc nhở
- trích dẫn (favicon, điểm nổi bật, đoạn trích, tên website)
Hỗ trợ các cấu trúc trích dẫn phong phú tương tự như phản hồi của Google Gemini.
5. Google AI Mode Scraper
Được sử dụng để lấy dữ liệu từ Google AI Overviews / AIO responses.
Trường dữ liệu phản hồi
| Trường | Mô tả |
|---|---|
| result_text | Câu trả lời chính của AI |
| result_html | HTML thô |
| raw_url | URL nguồn |
| trích dẫn | Dữ liệu trích dẫn với hình thu nhỏ |
| tìm kiếm kết quả | Kết quả tìm kiếm truyền thống (nếu có) |
Giúp & Câu hỏi thường gặp
Thanh toán
Nếu kết quả được tạo nhưng không được truy xuất trong vòng 5 phút, yêu cầu vẫn bị tính phí.
Để tránh lãng phí:
- Truy xuất kết quả ngay lập tức, hoặc
- Cấu hình một webhook để tự động nhận kết quả
Nguồn dữ liệu
Chúng tôi chỉ lấy dữ liệu công khai, không cần đăng nhập, đảm bảo tuân thủ và bảo vệ quyền riêng tư.
Các quốc gia / khu vực hỗ trợ
(Danh sách một phần dưới đây)
| Quốc gia / Khu vực | Mã |
|---|---|
| Áo | AT |
| Úc | AU |
| Bỉ | BE |
| Nhật Bản | JP |
| Singapore | SG |
| Đài Loan | TW |
| Hoa Kỳ | US |
| … | … |
Danh sách đầy đủ với hơn 195 quốc gia có sẵn theo yêu cầu.
Kết luận
API LLM Chat Scraper mang đến cho các đội khả năng:
- Theo dõi nhắc đến thương hiệu trên tất cả các nền tảng trò chuyện AI
- Theo dõi sự hiện diện và xếp hạng của đối thủ trong các câu trả lời AI
- Phân tích đầu ra của mô hình, trích dẫn và xu hướng
- Xây dựng chiến lược GEO (Tối ưu hóa động)
- Tự động hóa các đường ống thông tin thời gian thực
- Truy cập dữ liệu có cấu trúc từ toàn bộ hệ sinh thái tìm kiếm AI
Nó không chỉ là một công cụ lấy dữ liệu—nó là một tầng hạ tầng dữ liệu cho Kỷ nguyên Tìm kiếm AI.
Liên hệ với chúng tôi để mở khóa giải pháp dữ liệu GEO đầy đủ —
để mỗi đoạn nội dung được hỗ trợ bởi dữ liệu, phù hợp với hành vi của thuật toán, và được định vị để phát triển đo lường được.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.



