Nuôi Dưỡng Các Đại Lý AI: Khai Thác Dữ Liệu Từ Amazon, Google và LLM Với Các Diễn Viên Scraper API

Olivia Patel

Senior Cybersecurity Analyst

08-Jun-2026

Những điểm quan trọng:

Một yêu cầu HTTP cho mỗi diễn viên. API Scrapeless Scraper biến một mục tiêu — một sản phẩm Amazon, một tìm kiếm Google, một câu trả lời AI — thành một POST duy nhất đối với một diễn viên scraper.* được đặt tên. Không cần trình duyệt để điều khiển, không cần bộ phân tích để duy trì.
Hai điểm kết nối, theo nhóm diễn viên. Các diễn viên trang web và SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) sử dụng POST /api/v1/scraper/request và trả về JSON đã được phân tích có hình dạng cụ thể cho từng diễn viên. Các diễn viên câu trả lời AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) sử dụng POST /api/v2/scraper/execute và trả về một phong bì { status, task_id, task_result }.
Một tiêu đề xác thực ở mọi nơi. Mỗi cuộc gọi đều mang theo x-api-token: <your key>. Một khóa tài khoản bao trùm tất cả các diễn viên.
Đầu ra có cấu trúc, không phải HTML thô. Các diễn viên trang web trả về JSON đã phân tích có cấu trúc — scraper.amazon bao gồm cả result đã phân tích và html được render, trong khi scraper.google.search trả về các trường SERP ở cấp độ đầu tiên — và các diễn viên v2 trả về nội dung câu trả lời cùng trích dẫn và liên kết dưới dạng các trường JSON.
Chạy không đồng bộ khi quá trình render chậm. Một số diễn viên trang web trả về một taskId; nộp yêu cầu, sau đó kiểm tra GET /api/v1/scraper/result/{taskId} cho đến khi dữ liệu tải lên sẵn sàng.
Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm tiền tín dụng miễn phí cho API Scraper — đăng ký tại app.scrapeless.com.

Giới thiệu: mô hình diễn viên

Một trình thu thập dữ liệu truyền thống là ba công việc được ghép lại với nhau: vượt qua lớp chống bot, render trang và phân tích các trường bạn muốn. API Scraper của Scrapeless hợp nhất cả ba vào một cuộc gọi. Bạn đặt tên cho một diễn viên — một bộ trích xuất đã được xây dựng cho một mục tiêu cụ thể — đưa cho nó một đầu vào, và nhận lại dữ liệu có cấu trúc. Quá trình xoay vòng proxy, render và phân tích chạy phía máy chủ.

Danh sách diễn viên gồm ba nhóm: thương mại điện tử (scraper.amazon, scraper.shopeev2), tìm kiếm (scraper.google.search), và câu trả lời AI (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode). Hướng dẫn này đề cập đến xác thực, hai hình dạng yêu cầu, một ví dụ làm việc từ mỗi nhóm, mẫu không đồng bộ, và các lỗi bạn sẽ thực sự thấy.

Những gì bạn có thể làm với nó

Kéo dữ liệu sản phẩm có cấu trúc — tiêu đề, giá, đánh giá, khả năng sẵn có, ASIN — từ một URL marketplace trong một yêu cầu.
Đọc một trang kết quả tìm kiếm dưới dạng JSON thay vì tự mình thu thập mã SERP.
Ghi lại một câu trả lời AI cùng các trích dẫn của nó — văn bản chính xác mà một mô hình trả về cho một yêu cầu, cùng với các nguồn mà nó đã trích dẫn, cho việc theo dõi GEO và khả năng hiển thị thương hiệu.
Chạy từ bất kỳ đâu — nó là HTTP đơn giản, vì vậy curl, Python requests, Node fetch, hoặc bất kỳ ngôn ngữ nào có trình khách HTTP đều hoạt động như nhau.

Tại sao lại sử dụng API Scraper

Không trình duyệt, không bộ phân tích để duy trì. Diễn viên render và phân tích phía máy chủ; bạn nhận các trường, không phải một DOM để đi bộ.
Một khóa, một hình dạng cho mỗi nhóm. Một x-api-token duy nhất xác thực mọi diễn viên, và mỗi nhóm trả về một phong bì nhất quán, vì vậy một lớp bọc khách hàng được viết một lần có thể tái sử dụng cho nhiều mục tiêu.
Egress và rendering cư trú được tích hợp sẵn. Diễn viên xử lý định tuyến địa lý và quá trình render JavaScript; bạn gửi vào và đọc kết quả.

Lấy API key của bạn trên kế hoạch miễn phí tại app.scrapeless.com. API Scraper nằm cạnh Universal Scraping API và Scraping Browser trong danh sách giá cả.

Các yêu cầu cần có

Một tài khoản Scrapeless và API key — đăng ký tại app.scrapeless.com.
curl để thử nghiệm nhanh, hoặc Python 3.10+/ Node.js 18+ cho các khách hàng dưới đây.
Kiến thức cơ bản về HTTP và JSON.

Lưu trữ khóa của bạn trong môi trường để nó không rơi vào mã:

bash Copy

export SCRAPELESS_API_KEY=your_api_token_here

Hai hình dạng yêu cầu

API Scraper có hai điểm kết nối. Diễn viên nào sử dụng điểm nào phụ thuộc vào những gì nó trả về.

Nhóm	Điểm kết nối	Diễn viên	Trả về
Trang / SERP	`POST https://api.scrapeless.com/api/v1/scraper/request`	`scraper.amazon`, `scraper.google.search`, `scraper.shopeev2`	JSON đã phân tích cụ thể cho diễn viên (ví dụ: `scraper.amazon` → `{ html, metadata, result }`; `scraper.google.search` → `organic_results`, … cấp độ đầu tiên)
Phản hồi AI	`POST https://api.scrapeless.com/api/v2/scraper/execute`	`scraper.chatgpt`, `scraper.gemini`, `scraper.copilot`, `scraper.grok`, `scraper.perplexity`, `scraper.aimode`	`{ status, task_id, task_result }`

Cả hai đều nhận một thân JSON là { "actor": "<tên>", "input": { … } } và tiêu đề x-api-token. Các trường input khác nhau tùy theo diễn viên (xem từng ví dụ).

Ví dụ 1 — sản phẩm Amazon (v1)

bash Copy

curl -X POST https://api.scrapeless.com/api/v1/scraper/request \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.amazon",
    "input": { "action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3" }
  }'

Phản hồi mang theo html đã được render, một khối metadata, và một đối tượng result đã được phân tích. result là những gì hầu hết các pipeline sử dụng trực tiếp:

json Copy

// kết quả (rút gọn) — sơ đồ là chuẩn, giá trị đến từ một lần chạy thực tế
{
  "asin": "B09B8V1LZ3",
  "title": "Amazon Echo Dot (mẫu mới nhất) …",
  "final_price": "$49.99",
  "availability": "Còn hàng",
  "reviews_count": "193514",
  "seller_name": "Amazon.com"
}

Trong Python:

python Copy

import os, requests

resp = requests.post(
    "https://api.scrapeless.com/api/v1/scraper/request",
    headers={"x-api-token": os.environ["SCRAPELESS_API_KEY"]},
    json={"actor": "scraper.amazon",
          "input": {"action": "product", "url": "https://www.amazon.com/dp/B09B8V1LZ3"}},
    timeout=120,
)
resp.raise_for_status()
print(resp.json()["result"])   # đối tượng đã phân tích; resp.json()["html"] là trang đầy đủ

scraper.google.search sử dụng cùng một điểm cuối v1 với input là { "q": "web scraping" }, nhưng kết quả SERP đã phân tích của nó trở lại ở cấp trên cùng — organic_results, search_information, pagination, related_searches — bên cạnh metadata, không có bao bọc result.

Ví dụ 2 — một phản hồi AI (v2)

Các diễn viên trả lời AI nhận một prompt và một country và trả về đáp ứng của mô hình cùng với các trích dẫn của nó:

bash Copy

curl -X POST https://api.scrapeless.com/api/v2/scraper/execute \
  -H "Content-Type: application/json" \
  -H "x-api-token: $SCRAPELESS_API_KEY" \
  -d '{
    "actor": "scraper.chatgpt",
    "input": { "prompt": "Các công cụ web scraping tốt nhất là gì?", "country": "US" }
  }'

Mỗi cuộc gọi thành công đều trả về cùng một phong bì:

json Copy

// sơ đồ là chuẩn, giá trị đến từ một lần chạy thực tế
{
  "status": "success",
  "task_id": "…",
  "task_result": {
    "model": "gpt-5-5",
    "result_text": "…đáp ứng của mô hình…",
    "content_references": [ { "title": "…", "url": "https://…" } ],
    "links": [ "https://…" ]
  }
}

task_result chứa câu trả lời (result_text), các nguồn đã trích dẫn (content_references), và các links đã được trích xuất — phân tích chia sẻ trích dẫn là một trường đọc, không phải là một phân tích.

Một số diễn viên này cần thêm một trường bắt buộc khác, mà API ghi tên trong thông điệp xác thực nếu bạn bỏ qua: scraper.copilot cần "mode": "smart", scraper.grok cần "mode": "MODEL_MODE_AUTO", và scraper.perplexity chấp nhận "web_search": true để định hướng câu trả lời. scraper.gemini và scraper.aimode chỉ cần { prompt, country }.

Để biết danh sách đầy đủ các trường theo diễn viên, hãy xem tài liệu LLM Chat Scraper. Để có một hướng dẫn đã làm việc từ đầu đến cuối trên một trong những diễn viên này, tài liệu hướng dẫn scraper Tóm tắt AI Google sẽ hướng dẫn qua quy trình thu thập ở cấp độ trích dẫn.

Các diễn viên bất đồng bộ: gửi yêu cầu, sau đó kiểm tra

Một số diễn viên trang web sẽ render một trang nặng và trả lời một cách bất đồng bộ. POST trả về một taskId thay vì payload:

json Copy

{ "taskId": "ef2f7cef-…", "message": "công việc đang tiến hành" }

Kiểm tra endpoint kết quả cho đến khi công việc hoàn thành, sau đó đọc cùng một cấu trúc payload:

bash Copy

curl "https://api.scrapeless.com/api/v1/scraper/result/$TASK_ID" \
  -H "x-api-token: $SCRAPELESS_API_KEY"
# khi vẫn đang chạy: { "state": "processing", "taskId": "…" }

scraper.shopeev2 làm theo mẫu này. Gửi một URL sản phẩm shopee.sg ({ "url": "https://shopee.sg/<name>-i.<shopid>.<itemid>" }), sau đó kiểm tra cho đến khi JSON sản phẩm đến. Các cửa hàng bị hạn chế theo khu vực, vì vậy một miền không hỗ trợ sẽ trả về khu vực không được hỗ trợ.

Những gì bạn nhận được

Gia đình Diễn viên	Các khóa cấp trên	Nơi dữ liệu nằm
Trang / SERP (v1)	khóa cụ thể cho diễn viên (amazon: `html`, `metadata`, `result`; google: `organic_results`, … ở cấp trên cùng)	các trường đã phân tích có cấu trúc; `scraper.amazon` cũng trả về toàn bộ `html` đã được render
Phản hồi AI (v2)	`status`, `task_id`, `task_result`	`task_result` chứa văn bản câu trả lời, các trích dẫn và các liên kết
Xử lý các trường vắng mặt như là có thể null — các mô-đun khác nhau theo sản phẩm, truy vấn, vùng, và mô hình. Đọc những gì mà diễn viên gửi lên trước (`scraper.amazon`'s `result`, các trường SERP cấp cao cho `scraper.google.search`, hoặc `task_result` cho các diễn viên v2), và quay lại `html` của `scraper.amazon` chỉ khi bạn cần một trường mà diễn viên không phân tích.

Câu hỏi thường gặp

H: Tôi làm thế nào để xác thực?

Mỗi yêu cầu mang theo tiêu đề x-api-token: <your key>. Một khóa tài khoản hoạt động trên tất cả các diễn viên. Tạo một khóa trên gói miễn phí tại app.scrapeless.com.

H: Diễn viên nào sử dụng endpoint nào — v1 hay v2?

Các diễn viên Site và SERP (scraper.amazon, scraper.google.search, scraper.shopeev2) sử dụng /api/v1/scraper/request. Các diễn viên AI-answer (scraper.chatgpt, scraper.gemini, scraper.copilot, scraper.grok, scraper.perplexity, scraper.aimode) sử dụng /api/v2/scraper/execute.

H: Tôi làm thế nào để tìm các trường đầu vào cần thiết của một diễn viên?

Gửi yêu cầu; nếu một trường thiếu, API phản hồi với một tin nhắn xác thực nêu tên nó (ví dụ, scraper.copilot báo rằng mode là bắt buộc). Tài liệu tham khảo theo diễn viên có trong tài liệu API của Scrapeless.

H: Việc thu thập dữ liệu từ các trang này có hợp pháp không?

Các diễn viên này thu thập dữ liệu công khai có thể nhìn thấy. Các quy định khác nhau theo khu vực pháp lý và theo điều khoản dịch vụ của từng trang, vì vậy hãy xem xét kỹ các điều khoản liên quan và tham khảo ý kiến luật sư cho trường hợp sử dụng của bạn trước khi triển khai quy mô lớn. Không bao giờ thu thập dữ liệu cá nhân được bảo vệ theo GDPR hoặc CCPA.

H: Tôi có cần một proxy không?

Không. Việc thoát dân cư và định hướng địa lý đã được tích hợp sẵn trong diễn viên — bạn gửi đầu vào, diễn viên sẽ xử lý lớp mạng. Các mục tiêu được giới hạn theo vùng chỉ chấp nhận các miền cửa hàng được hỗ trợ.

H: Tôi có thể thực hiện điều này mà không cần đại lý AI hoặc SDK không?

Có. Đây là HTTP đơn giản — curl, requests, fetch, hoặc bất kỳ khách hàng HTTP nào đều hoạt động trực tiếp. Không cần SDK.

Kết luận

API Scraper giảm việc thu thập dữ liệu xuống một quyết định và một yêu cầu: chọn diễn viên, gửi { actor, input } với x-api-token của bạn, và đọc lại các trường có cấu trúc. Các diễn viên Site và SERP phản hồi trên /api/v1/scraper/request với JSON đã phân tích dạng cụ thể cho diễn viên; các diễn viên AI-answer phản hồi trên /api/v2/scraper/execute với một bao bì đồng nhất { status, task_id, task_result }; các bản render chậm phản hồi không đồng bộ thông qua một taskId mà bạn cần theo dõi. Viết lại lớp bao ghi cho khách hàng một lần và định hướng nó đến bất kỳ diễn viên nào mà pipeline cần.

Sẵn sàng xây dựng pipeline dữ liệu mạnh mẽ AI của bạn?

Tham gia cộng đồng của chúng tôi để nhận gói miễn phí và kết nối với các nhà phát triển đang xây dựng các pipeline API Scraper: Discord · Telegram.

Đăng ký tại app.scrapeless.com để nhận tín dụng Scraper API miễn phí, và chỉ định một diễn viên vào các trang, truy vấn, hoặc các câu trả lời AI mà pipeline của bạn cần.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục