Nuôi Dưỡng Các Đại Lý AI: Khai Thác Dữ Liệu Từ Amazon, Google và LLM Với Các Diễn Viên Scraper API
Senior Cybersecurity Analyst
Những điểm quan trọng:
- Một yêu cầu HTTP cho mỗi diễn viên. API Scrapeless Scraper biến một mục tiêu — một sản phẩm Amazon, một tìm kiếm Google, một câu trả lời AI — thành một
POSTduy nhất đối với một diễn viênscraper.*được đặt tên. Không cần trình duyệt để điều khiển, không cần bộ phân tích để duy trì. - Hai điểm kết nối, theo nhóm diễn viên. Các diễn viên trang web và SERP (
scraper.amazon,scraper.google.search,scraper.shopeev2) sử dụngPOST /api/v1/scraper/requestvà trả về JSON đã được phân tích có hình dạng cụ thể cho từng diễn viên. Các diễn viên câu trả lời AI (scraper.chatgpt,scraper.gemini,scraper.copilot,scraper.grok,scraper.perplexity,scraper.aimode) sử dụngPOST /api/v2/scraper/executevà trả về một phong bì{ status, task_id, task_result }. - Một tiêu đề xác thực ở mọi nơi. Mỗi cuộc gọi đều mang theo
x-api-token: <your key>. Một khóa tài khoản bao trùm tất cả các diễn viên. - Đầu ra có cấu trúc, không phải HTML thô. Các diễn viên trang web trả về JSON đã phân tích có cấu trúc —
scraper.amazonbao gồm cảresultđã phân tích vàhtmlđược render, trong khiscraper.google.searchtrả về các trường SERP ở cấp độ đầu tiên — và các diễn viên v2 trả về nội dung câu trả lời cùng trích dẫn và liên kết dưới dạng các trường JSON. - Chạy không đồng bộ khi quá trình render chậm. Một số diễn viên trang web trả về một
taskId; nộp yêu cầu, sau đó kiểm traGET /api/v1/scraper/result/{taskId}cho đến khi dữ liệu tải lên sẵn sàng. - Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm tiền tín dụng miễn phí cho API Scraper — đăng ký tại app.scrapeless.com.
Giới thiệu: mô hình diễn viên
Một trình thu thập dữ liệu truyền thống là ba công việc được ghép lại với nhau: vượt qua lớp chống bot, render trang và phân tích các trường bạn muốn. API Scraper của Scrapeless hợp nhất cả ba vào một cuộc gọi. Bạn đặt tên cho một diễn viên — một bộ trích xuất đã được xây dựng cho một mục tiêu cụ thể — đưa cho nó một đầu vào, và nhận lại dữ liệu có cấu trúc. Quá trình xoay vòng proxy, render và phân tích chạy phía máy chủ.
Danh sách diễn viên gồm ba nhóm: thương mại điện tử (scraper.amazon, scraper.shopeev2), tìm kiếm (scraper.google.search), và câu trả lời AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode). Hướng dẫn này đề cập đến xác thực, hai hình dạng yêu cầu, một ví dụ làm việc từ mỗi nhóm, mẫu không đồng bộ, và các lỗi bạn sẽ thực sự thấy.
Những gì bạn có thể làm với nó
- Kéo dữ liệu sản phẩm có cấu trúc — tiêu đề, giá, đánh giá, khả năng sẵn có, ASIN — từ một URL marketplace trong một yêu cầu.
- Đọc một trang kết quả tìm kiếm dưới dạng JSON thay vì tự mình thu thập mã SERP.
- Ghi lại một câu trả lời AI cùng các trích dẫn của nó — văn bản chính xác mà một mô hình trả về cho một yêu cầu, cùng với các nguồn mà nó đã trích dẫn, cho việc theo dõi GEO và khả năng hiển thị thương hiệu.
- Chạy từ bất kỳ đâu — nó là HTTP đơn giản, vì vậy curl, Python
requests, Nodefetch, hoặc bất kỳ ngôn ngữ nào có trình khách HTTP đều hoạt động như nhau.
Tại sao lại sử dụng API Scraper
- Không trình duyệt, không bộ phân tích để duy trì. Diễn viên render và phân tích phía máy chủ; bạn nhận các trường, không phải một DOM để đi bộ.
- Một khóa, một hình dạng cho mỗi nhóm. Một
x-api-tokenduy nhất xác thực mọi diễn viên, và mỗi nhóm trả về một phong bì nhất quán, vì vậy một lớp bọc khách hàng được viết một lần có thể tái sử dụng cho nhiều mục tiêu. - Egress và rendering cư trú được tích hợp sẵn. Diễn viên xử lý định tuyến địa lý và quá trình render JavaScript; bạn gửi vào và đọc kết quả.
Lấy API key của bạn trên kế hoạch miễn phí tại app.scrapeless.com. API Scraper nằm cạnh Universal Scraping API và Scraping Browser trong danh sách giá cả.
Các yêu cầu cần có
- Một tài khoản Scrapeless và API key — đăng ký tại app.scrapeless.com.
curlđể thử nghiệm nhanh, hoặc Python 3.10+/ Node.js 18+ cho các khách hàng dưới đây.- Kiến thức cơ bản về HTTP và JSON.
Lưu trữ khóa của bạn trong môi trường để nó không rơi vào mã:
bash
export SCRAPELESS_API_KEY=your_api_token_here
Hai hình dạng yêu cầu
API Scraper có hai điểm kết nối. Diễn viên nào sử dụng điểm nào phụ thuộc vào những gì nó trả về.
| Nhóm | Điểm kết nối | Diễn viên | Trả về |
|---|---|---|---|
| Trang / SERP | POST https://api.scrapeless.com/api/v1/scraper/request |
scraper.amazon, scraper.google.search, scraper.shopeev2 |
JSON đã phân tích cụ thể cho diễn viên (ví dụ: scraper.amazon → { html, metadata, result }; scraper.google.search → organic_results, … cấp độ đầu tiên) |
| Phản hồi AI | POST https://api.scrapeless.com/api/v2/scraper/execute |
scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode |
{ status, task_id, task_result } |
Cả hai đều nhận một thân JSON là { "actor": "<tên>", "input": { … } } và tiêu đề x-api-token. Các trường input khác nhau tùy theo diễn viên (xem từng ví dụ).
Ví dụ 1 — sản phẩm Amazon (v1)
bash
curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.amazon",
"input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
}'
Phản hồi mang theo html đã được render, một khối metadata, và một đối tượng result đã được phân tích. result là những gì hầu hết các pipeline sử dụng trực tiếp:
json
// kết quả (rút gọn) — sơ đồ là chuẩn, giá trị đến từ một lần chạy thực tế
{
"asin": "B09B8V1LZ3",
"title": "Amazon Echo Dot (mẫu mới nhất) …",
"final_price": "$49.99",
"availability": "Còn hàng",
"reviews_count": "193514",
"seller_name": "Amazon.com"
}
Trong Python:
python
import os, requests
resp = requests.post(
"https://api.scrapeless.com/api/v1/scraper/request",
headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
json={"actor": "scraper.amazon",
"input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"]) # đối tượng đã phân tích; resp.json()["html"] là trang đầy đủ
scraper.google.search sử dụng cùng một điểm cuối v1 với input là { "q": "web scraping" }, nhưng kết quả SERP đã phân tích của nó trở lại ở cấp trên cùng — organic_results, search_information, pagination, related_searches — bên cạnh metadata, không có bao bọc result.
Ví dụ 2 — một phản hồi AI (v2)
Các diễn viên trả lời AI nhận một prompt và một country và trả về đáp ứng của mô hình cùng với các trích dẫn của nó:
bash
curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
-H "Content-Type: application/json" \
-H "x-api-token: $SCRAPELESS_API_KEY" \
-d '{
"actor": "scraper.chatgpt",
"input": { "prompt": "Các công cụ web scraping tốt nhất là gì?", "country": "US" }
}'
Mỗi cuộc gọi thành công đều trả về cùng một phong bì:
json
// sơ đồ là chuẩn, giá trị đến từ một lần chạy thực tế
{
"status": "success",
"task_id": "…",
"task_result": {
"model": "gpt-5-5",
"result_text": "…đáp ứng của mô hình…",
"content_references": [ { "title": "…", "url": "https://…" } ],
"links": [ "https://…" ]
}
}
task_result chứa câu trả lời (result_text), các nguồn đã trích dẫn (content_references), và các links đã được trích xuất — phân tích chia sẻ trích dẫn là một trường đọc, không phải là một phân tích.
Một số diễn viên này cần thêm một trường bắt buộc khác, mà API ghi tên trong thông điệp xác thực nếu bạn bỏ qua: scraper.copilot cần "mode": "smart", scraper.grok cần "mode": "MODEL_MODE_AUTO", và scraper.perplexity chấp nhận "web_search": true để định hướng câu trả lời. scraper.gemini và scraper.aimode chỉ cần { prompt, country }.
Để biết danh sách đầy đủ các trường theo diễn viên, hãy xem tài liệu LLM Chat Scraper. Để có một hướng dẫn đã làm việc từ đầu đến cuối trên một trong những diễn viên này, tài liệu hướng dẫn scraper Tóm tắt AI Google sẽ hướng dẫn qua quy trình thu thập ở cấp độ trích dẫn.
Các diễn viên bất đồng bộ: gửi yêu cầu, sau đó kiểm tra
Một số diễn viên trang web sẽ render một trang nặng và trả lời một cách bất đồng bộ. POST trả về một taskId thay vì payload:
json
{ "taskId": "ef2f7cef-…", "message": "công việc đang tiến hành" }
Kiểm tra endpoint kết quả cho đến khi công việc hoàn thành, sau đó đọc cùng một cấu trúc payload:
bash
curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
-H "x-api-token: $SCRAPELESS_API_KEY"
# khi vẫn đang chạy: { "state": "processing", "taskId": "…" }
scraper.shopeev2 làm theo mẫu này. Gửi một URL sản phẩm shopee.sg ({ "url": "https://shopee.sg/<name>-i.<shopid>.<itemid>" }), sau đó kiểm tra cho đến khi JSON sản phẩm đến. Các cửa hàng bị hạn chế theo khu vực, vì vậy một miền không hỗ trợ sẽ trả về khu vực không được hỗ trợ.
Những gì bạn nhận được
| Gia đình Diễn viên | Các khóa cấp trên | Nơi dữ liệu nằm |
|---|---|---|
| Trang / SERP (v1) | khóa cụ thể cho diễn viên (amazon: html, metadata, result; google: organic_results, … ở cấp trên cùng) |
các trường đã phân tích có cấu trúc; scraper.amazon cũng trả về toàn bộ html đã được render |
| Phản hồi AI (v2) | status, task_id, task_result |
task_result chứa văn bản câu trả lời, các trích dẫn và các liên kết |
Xử lý các trường vắng mặt như là có thể null — các mô-đun khác nhau theo sản phẩm, truy vấn, vùng, và mô hình. Đọc những gì mà diễn viên gửi lên trước (scraper.amazon's result, các trường SERP cấp cao cho scraper.google.search, hoặc task_result cho các diễn viên v2), và quay lại html của scraper.amazon chỉ khi bạn cần một trường mà diễn viên không phân tích. |
Câu hỏi thường gặp
H: Tôi làm thế nào để xác thực?
Mỗi yêu cầu mang theo tiêu đề x-api-token: <your key>. Một khóa tài khoản hoạt động trên tất cả các diễn viên. Tạo một khóa trên gói miễn phí tại app.scrapeless.com.
H: Diễn viên nào sử dụng endpoint nào — v1 hay v2?
Các diễn viên Site và SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) sử dụng /api/v1/scraper/request. Các diễn viên AI-answer (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) sử dụng /api/v2/scraper/execute.
H: Tôi làm thế nào để tìm các trường đầu vào cần thiết của một diễn viên?
Gửi yêu cầu; nếu một trường thiếu, API phản hồi với một tin nhắn xác thực nêu tên nó (ví dụ, scraper.copilot báo rằng mode là bắt buộc). Tài liệu tham khảo theo diễn viên có trong tài liệu API của Scrapeless.
H: Việc thu thập dữ liệu từ các trang này có hợp pháp không?
Các diễn viên này thu thập dữ liệu công khai có thể nhìn thấy. Các quy định khác nhau theo khu vực pháp lý và theo điều khoản dịch vụ của từng trang, vì vậy hãy xem xét kỹ các điều khoản liên quan và tham khảo ý kiến luật sư cho trường hợp sử dụng của bạn trước khi triển khai quy mô lớn. Không bao giờ thu thập dữ liệu cá nhân được bảo vệ theo GDPR hoặc CCPA.
H: Tôi có cần một proxy không?
Không. Việc thoát dân cư và định hướng địa lý đã được tích hợp sẵn trong diễn viên — bạn gửi đầu vào, diễn viên sẽ xử lý lớp mạng. Các mục tiêu được giới hạn theo vùng chỉ chấp nhận các miền cửa hàng được hỗ trợ.
H: Tôi có thể thực hiện điều này mà không cần đại lý AI hoặc SDK không?
Có. Đây là HTTP đơn giản — curl, requests, fetch, hoặc bất kỳ khách hàng HTTP nào đều hoạt động trực tiếp. Không cần SDK.
Kết luận
API Scraper giảm việc thu thập dữ liệu xuống một quyết định và một yêu cầu: chọn diễn viên, gửi { actor, input } với x-api-token của bạn, và đọc lại các trường có cấu trúc. Các diễn viên Site và SERP phản hồi trên /api/v1/scraper/request với JSON đã phân tích dạng cụ thể cho diễn viên; các diễn viên AI-answer phản hồi trên /api/v2/scraper/execute với một bao bì đồng nhất { status, task_id, task_result }; các bản render chậm phản hồi không đồng bộ thông qua một taskId mà bạn cần theo dõi. Viết lại lớp bao ghi cho khách hàng một lần và định hướng nó đến bất kỳ diễn viên nào mà pipeline cần.
Sẵn sàng xây dựng pipeline dữ liệu mạnh mẽ AI của bạn?
Tham gia cộng đồng của chúng tôi để nhận gói miễn phí và kết nối với các nhà phát triển đang xây dựng các pipeline API Scraper: Discord · Telegram.
Đăng ký tại app.scrapeless.com để nhận tín dụng Scraper API miễn phí, và chỉ định một diễn viên vào các trang, truy vấn, hoặc các câu trả lời AI mà pipeline của bạn cần.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.



