Chương trình Hermes + Scrapeless: Tích hợp CDP 1 dòng cho các tác nhân web chống phát hiện

James Thompson

Scraping and Proxy Management Expert

06-May-2026

Những điểm chính:

Tích hợp qua một dòng cấu hình. Hermes Agent của Nous Research có một công cụ duyệt web tích hợp sẵn đã nói chuyện bằng Giao thức DevTools của Chrome. Chỉ cần chỉ vào Scrapeless Scraping Browser với một dòng browser.cdp_url trong ~/.hermes/config.yaml. Không cần cài đặt SDK, không cần quy trình con CLI, không cần thay đổi mã ở phía agent.
Mọi hành động duyệt web của Hermes đều chạy trong đám mây của Scrapeless. browser_navigate, browser_snapshot, browser_click, browser_type, browser_scroll, browser_press, browser_get_images, và browser_vision thực hiện bên trong trình duyệt đám mây của Scrapeless, dưới dạng proxy dân cư, với nhận dạng ngăn chặn phát hiện trong mỗi phiên làm việc.
Tiếp cận đa kênh. Cổng của Hermes mở rộng agent qua Telegram, Discord, Slack, WhatsApp, Signal, email, và một CLI. Khi Scrapeless được kết nối, trình duyệt đám mây trở thành phần lõi của bất kỳ nghiên cứu, tạo dẫn, hoặc quy trình giám sát nào mà không tiết lộ điểm kết thúc thu thập dữ liệu riêng biệt.
Trình duyệt đám mây ngăn chặn phát hiện, proxy dân cư ở 195 quốc gia. Scrapeless Scraping Browser xử lý việc hiển thị JavaScript, thoát proxy dân cư, tùy chỉnh dấu vân tay trình duyệt (user agent, múi giờ, ngôn ngữ, độ phân giải màn hình), và khả năng duy trì phiên làm việc ở cấp độ nền tảng, vì vậy agent có thể tập trung vào nhiệm vụ chính thay vì hạ tầng truy cập.
Tích hợp CDP trực tiếp. Chỉ cần chỉ Hermes' browser tool vào điểm cuối WSS của Scrapeless là hoàn toàn xác lập — không cần thay thế kỹ năng, không cần SDK, không có quy trình con.

Giới thiệu: từ Chromium cục bộ đến trình duyệt đám mây bảo mật

Hermes Agent là một agent tự động nguồn mở với bộ nhớ bền vững, khả năng tạo kỹ năng tự động và một cổng đa kênh. Ngay khi nhận hàng, nó cung cấp một công cụ duyệt web sử dụng mô hình cây truy cập — các trang được hiển thị dưới dạng bản chụp văn bản với các yếu tố tương tác được gán nhãn @e1, @e2, @e3, và LLM điều khiển điều hướng và điền biểu mẫu dựa trên các tham chiếu đó. Điều này hoạt động tốt cho việc tra cứu tài liệu và các nhiệm vụ điều hướng cơ bản.

Web thương mại là một bề mặt khác. Cloudflare Turnstile, reCAPTCHA, Akamai Bot Manager, danh sách danh tiếng IP, và các SPA chỉ JavaScript nằm giữa các khách hàng tự động và nhiều nhà bán lẻ, thị trường, và SERPs. Một Chromium cục bộ chạy mà không có hỗ trợ thường bị xác định là lưu lượng tự động bởi những lớp này. Các quy trình làm việc mà agent có thể hoàn thành — kéo giá từ một trang danh mục, giám sát một trang danh sách công khai, điền một biểu mẫu xác thực, trích xuất một tập dữ liệu đã gõ cho RAG hạ nguồn — ngừng lại ở lần xen kẽ đầu tiên.

Scrapeless Scraping Browser là một trình duyệt đám mây ngăn chặn phát hiện được giới thiệu qua Giao thức DevTools của Chrome. Nó cung cấp một mạng lưới proxy dân cư trải dài qua 195 quốc gia (theo tài liệu của Scrapeless) và ngẫu nhiên hóa dấu vân tay trình duyệt cho mỗi phiên. Công cụ trình duyệt của Hermes đã sẵn sàng giao tiếp CDP. Tích hợp chỉ là một dòng cấu hình. Bài viết này hướng dẫn quá trình kết nối, những lệnh mà agent sẽ chấp nhận, và mẫu khám phá → trích xuất mà mở rộng sự kết hợp này qua các trang web.

Tại sao lại là Scrapeless Scraping Browser

Scrapeless Scraping Browser là một trình duyệt đám mây tùy chỉnh, ngăn chặn phát hiện được thiết kế cho các trình thu thập dữ liệu web và agent AI. Đối với Hermes Agent cụ thể, nó mang lại:

Bề mặt Giao thức DevTools của Chrome — Công cụ trình duyệt của Hermes đã nói chuyện bằng CDP. Trình duyệt đám mây chỉ cần hoạt động trong bối cảnh của cùng một cuộc gọi công cụ mà không cần tái biên dịch, phát triển cấu hình, hoặc đường dẫn mã mới.
Proxy dân cư ở 195 quốc gia — Các truy vấn theo địa lý trả về danh sách mà một người dùng cục bộ sẽ thấy, với sự thay đổi theo phiên và không cần thiết lập theo yêu cầu.
Hiển thị JavaScript ở phía đám mây — Các trang được đưa hoàn toàn vào trước khi trích xuất, vì vậy các SPAs, nguồn cấp dữ liệu cuộn vô hạn và bảng điều khiển tải chậm trở thành mục tiêu chính cho browser_snapshot và browser_vision.
Tùy chỉnh dấu vân tay trình duyệt — Các tham số cốt lõi (user agent, múi giờ, ngôn ngữ, độ phân giải màn hình) có thể điều chỉnh theo phiên theo tài liệu của Scrapeless; các danh tính nhất quán có sẵn thông qua tính năng dấu vân tay tùy chỉnh của Scrapeless khi tính liên tục là quan trọng.
Duy trì phiên làm việc thông qua các tham số truy vấn sessionTTL (60–900 giây) và sessionName trên điểm cuối WSS, vì vậy các quy trình Hermes nhiều bước sử dụng lại cùng một trình duyệt ấm, cookie và vị trí cuộn trong cả cuộc gọi công cụ.
Giao diện quản lý duy nhất — một khóa API, một tài khoản đám mây, và ghi lại ở phía bảng điều khiển để phát lại.

Nhận khóa API của bạn trên gói miễn phí tại đăng ký trên Scrapeless và tham gia cộng đồng chính thức của chúng tôi.
Cộng đồng Discord Chính thức của Scrapeless
Cộng đồng Telegram Chính thức của Scrapeless

Điều kiện tiên quyết

Đã cài đặt Hermes Agent. Trình cài đặt chính thức hỗ trợ Linux, macOS, WSL2 và Termux trên Android: curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash. Trình hướng dẫn cài đặt sẽ chạy khi khởi động lần đầu.
Tài khoản Scrapeless và khóa API — đăng ký tại Scrapeless và sao chép khóa từ Cài đặt → Quản lý khóa API.
Python 3.11 hoặc phiên bản mới hơn — yêu cầu môi trường chạy của Hermes.
Khóa API mô hình chat — Hermes không phụ thuộc vào nhà cung cấp (Nous Portal, OpenRouter, NVIDIA NIM, Xiaomi MiMo và bất kỳ điểm cuối tương thích OpenAI nào). Cấu hình nhà cung cấp mà Hermes đã kết nối.
Hiểu biết cơ bản về chỉnh sửa ~/.hermes/config.yaml hoặc chạy các lệnh con CLI của Hermes.

Cài đặt

Quá trình cài đặt đầy đủ gồm bốn bước phụ. Mỗi bước có thể được xác minh độc lập, vì vậy bạn có thể tạm dừng và xác nhận trước khi tiếp tục.

1. Lấy khóa API Scrapeless

Đăng ký tại Scrapeless, mở bảng điều khiển, và từ Cài đặt → Quản lý khóa API tạo một khóa. Sao chép giá trị — nó sẽ được sử dụng trong cấu hình Hermes ở bước 2.

2. Chỉ định công cụ duyệt web của Hermes đến điểm cuối WSS của Scrapeless

Mở ~/.hermes/config.yaml (tạo tệp nếu nó không tồn tại) và thêm dòng browser.cdp_url. Điểm cuối CDP của Scrapeless chấp nhận khóa API, quốc gia proxy, và TTL phiên như các tham số truy vấn:

yaml Copy

# ~/.hermes/config.yaml
browser:
  cdp_url: "wss://browser.scrapeless.com/api/v2/browser?token=YOUR_SCRAPELESS_API_KEY&proxyCountry=US&sessionTTL=600"

Dòng này sẽ định tuyến mọi cuộc gọi công cụ duyệt web của Hermes — browser_navigate, browser_snapshot, browser_click, browser_type, browser_scroll, browser_press, browser_get_images, browser_vision — thông qua trình duyệt đám mây của Scrapeless. Cây khả năng tiếp cận mà Hermes sử dụng để gán nhãn @e1, @e2, @e3 được tạo ra từ việc kết xuất của trình duyệt đám mây, vì vậy các hướng dẫn và kỹ năng hiện có vẫn hoạt động.

Nếu việc chỉnh sửa YAML bằng tay không tiện, bạn có thể sử dụng lệnh CLI /browser connect "wss://browser.scrapeless.com/api/v2/browser?token=YOUR_SCRAPELESS_API_KEY&proxyCountry=US" để thực hiện điều tương tự cho phiên hiện tại mà không cần lưu lại.

3. Đặt khóa API ra ngoài tệp cấu hình (được khuyên dùng)

Đối với các kho chia sẻ hoặc shell đa người dùng, hãy giữ bí mật ra khỏi YAML. Cấu hình Hermes hỗ trợ thay thế ${VAR}; xuất khóa một lần và tham chiếu đến nó từ URL:

macOS / Linux (bash hoặc zsh) — thêm vào ~/.zshrc hoặc ~/.bashrc:

bash Copy

export SCRAPELESS_API_KEY="your_api_token_here"
source ~/.zshrc          # hoặc ~/.bashrc

Windows (PowerShell) — lâu dài, có phạm vi người dùng:

powershell Copy

[Environment]::SetEnvironmentVariable("SCRAPELESS_API_KEY", "your_api_token_here", "User")

Sau đó cập nhật cấu hình để nội suy biến:

yaml Copy

browser:
  cdp_url: "wss://browser.scrapeless.com/api/v2/browser?token=${SCRAPELESS_API_KEY}&proxyCountry=US&sessionTTL=600"

4. Xác minh kết nối

Khởi động lại Hermes để nó nhận cấu hình mới, sau đó hỏi tác nhân:

"Mở https://example.com và cho tôi biết văn bản tiêu đề H1."

Một lần chạy thành công sẽ trả về "Example Domain". Nếu tác nhân báo lỗi ERR_TUNNEL_CONNECTION_FAILED, 401, hoặc treo ở browser_navigate, những nguyên nhân phổ biến nhất là khóa API, khu vực proxy, hoặc URL WSS được dán với một khoảng trắng lạ.

Cách bạn thực sự sử dụng điều này: yêu cầu tác nhân của bạn

Sau khi thay đổi dòng cấu hình, bạn điều khiển Scrapeless từ Hermes bằng cách nói chuyện với tác nhân — không phải viết mã liên kết CDP. Tác nhân sẽ điều khiển vòng lặp khám phá → trích xuất và lựa chọn các công cụ duyệt web từng bước một. Cổng đa kênh của Hermes có nghĩa là những yêu cầu giống nhau hoạt động từ Telegram, Discord, Slack, WhatsApp, Signal, email hoặc CLI địa phương.

Các yêu cầu bạn có thể dán

Bạn nhập	Những gì tác nhân làm
"Mở https://news.ycombinator.com và trả về năm câu chuyện hàng đầu với tiêu đề, URL, tác giả, điểm số, và số lượng bình luận dưới dạng JSON."	`browser_navigate` → `browser_snapshot` → trích xuất đã nhập.
"So sánh các trang giá của ba đối thủ SaaS này và tóm tắt những khác biệt."	Duyệt nhiều tab, `browser_get_images` cho các gói, tóm tắt LLM.
"Lấy trang chính và trang giá của `https://example.com` như thể tôi đang ở Tokyo."	Khởi động lại phiên với `proxyCountry=JP` (xem "Ghim một khu vực" bên dưới), sau đó kết xuất.
"Theo dõi trang nghề nghiệp Greenhouse này và cho tôi biết các vị trí nào khớp với `kỹ sư nhân viên` hoặc `hạ tầng`."	Duyệt, chụp ảnh khối danh sách, lọc hàng theo từ khóa, trả về các hàng có cấu trúc.
"Chụp ảnh toàn trang của `https://example.com` và phân tích những gì có trên đó."	`browser_navigate` → `browser_vision` (chụp + gửi đến mô hình đa phương thức).
"Điền vào mẫu liên hệ tại `<URL>` với tên của tôi, email và một tin nhắn ngắn - nhưng dừng lại trước khi gửi để tôi có thể xem xét."	Chụp ảnh màn hình mẫu, ánh xạ các trường yêu cầu tới `@e1`/`@e2`/…, `browser_type`, chụp màn hình, dừng lại ở tham chiếu gửi.
"Quá trình trích xuất đã trả về rỗng hôm qua - hãy chạy lại với ghi lại phiên được bật để tôi có thể phát lại."	Phát lại cùng một lưu đồ với `sessionRecording=true` trên URL WSS; liên kết phát lại sẽ hiển thị trong dashboard Scrapeless.
"Mở trang sản phẩm Amazon tại `<URL>` từ một lối thoát ở Mỹ và trả về tiêu đề, giá, đánh giá, số lượng đánh giá."	Phiên đã được gắn, chụp ảnh màn hình, trích xuất có cấu trúc.

Hình thành các lệnh

Cách diễn đạt	Hiệu ứng
"Sử dụng một lối thoát từ Đức."	Khởi động lại phiên trình duyệt đám mây với `proxyCountry=DE` trên URL WSS.
"Giữ phiên ấm trong mười phút tiếp theo."	Tăng `sessionTTL=600` để các luồng nhiều bước tái sử dụng cùng một trình duyệt.
"Bật ghi lại phiên."	Thêm `sessionRecording=true` - dashboard sẽ hiển thị video có thể phát lại cho phiên chạy.
"Trả về markdown, không phải HTML thô."	Đại lý sẽ truyền ảnh chụp qua bộ trích xuất của mình và trả về kiểu markdown.
"Dừng lại trước khi gửi cuối cùng."	Mẫu tích hợp sẵn của Hermes - điều khiển mẫu, chụp ảnh màn hình, dừng lại ở tham chiếu gửi.

Bước 1–5 dưới đây là tham khảo bên trong. Đọc chúng một lần để xem cách mô hình khám phá → trích xuất được cấu thành; sau đó tin tưởng vào đại lý để áp dụng nó cho bất kỳ yêu cầu nào mà người điều hành đưa ra từ chat.

Bước 1 — Kết nối với Trình Duyệt Tìm kiếm Scrapeless

Kết nối là URL WSS từ bước cài đặt. Công cụ trình duyệt Hermes sẽ quay số khi sử dụng lần đầu tiên và tái sử dụng cùng một ổ cắm trong suốt thời gian phiên.

yaml Copy

# ~/.hermes/config.yaml
browser:
  cdp_url: "wss://browser.scrapeless.com/api/v2/browser?token=${SCRAPELESS_API_KEY}&proxyCountry=US&sessionTTL=600"

Ba tham số truy vấn thực hiện phần lớn công việc:

token — khóa API Scrapeless. Bắt buộc.
proxyCountry — quốc gia proxy dân cư (ISO-3166 alpha-2, ví dụ: US, DE, JP, GB). Mặc định là một hồ bơi toàn cầu; cố định cho các danh sách theo địa lý.
sessionTTL — thời gian mà trình duyệt đám mây hoạt động sau lệnh cuối cùng, tính bằng giây. Phạm vi 60–900. Các TTL cao hơn phù hợp cho các luồng nhiều bước; mặc định là 60 phù hợp cho các trích xuất một lần.

Một os error 10054 tạm thời, ERR_TUNNEL_CONNECTION_FAILED, hoặc 503 khi quay số lần đầu có thể xảy ra khi cơ sở hạ tầng chống bot đặt lại các phiên mới trước khi trình duyệt hoàn toàn khởi động. Phát lại lệnh không thành công để thử lại; đối với các quy trình làm việc sản xuất, mục FAQ bên dưới đề cập đến một mô hình thử lại rõ ràng.

Bước 2 — Khám phá với `browser_navigate` + `browser_snapshot`

Mở trang và đọc nó như một cây khả năng tiếp cận trước khi trích xuất. Ảnh chụp sẽ trả về nhãn văn bản cho mỗi tham chiếu tương tác (@e1, @e2, @e3, …) và nội dung văn bản xung quanh - đủ để đại lý chọn được phần tử chính xác mà không phải đoán các bộ chọn CSS.

text Copy

Bạn: Mở https://example.com/products và chụp ảnh màn hình trang.
Đại lý: browser_navigate "https://example.com/products"
       browser_snapshot
       [trả về cây khả năng tiếp cận với @e1 = ô tìm kiếm, @e2 = trình đơn sắp xếp,
        @e3..@e22 = thẻ sản phẩm với tiêu đề + giá + đánh giá]

browser_snapshot là lệnh chủ chốt. Đây là cái biến một trang sống theo kiểu CDP thành thứ mà LLM có thể lý luận qua từng lượt. Bỏ qua nó và đại lý phải quay lại việc cắt gói HTML thô, điều này dễ bị lỗi hơn và sử dụng nhiều token hơn. Ảnh chụp là bước khám phá trong mô hình khám phá → trích xuất; mọi trích xuất bên dưới đều giả định rằng nó đã chạy trước.

Bước 3 — Trích xuất với các lệnh có cấu trúc

Với ảnh chụp trong tay, việc trích xuất là một lệnh công cụ LLM thông thường: đại lý đọc các tham chiếu và văn bản xung quanh, chọn các trường cần thiết, và trả về một bản ghi kiểu. Không sử dụng bộ chọn CSS, không có đánh giá JS - ảnh chụp đã chứa dữ liệu mà mô hình cần.

text Copy

Bạn: Từ ảnh chụp, trả về 10 sản phẩm hàng đầu dưới dạng JSON với tiêu đề, giá, đánh giá và URL sản phẩm.
Đại lý: [trả về mảng JSON với 10 hàng; các trường thiếu là null]

Đối với các trang không đơn giản (danh mục nhiều tab, nguồn cấp thông tin cuộn vô hạn, các biến thể được hiển thị A/B), bổ sung ảnh chụp bằng browser_scroll để làm cho các bảng điều khiển tải lười hoạt động, sau đó chụp lại. Trình duyệt đám mây xử lý việc render JS; Hermes xử lý vòng lặp.

Bước 4 — Điều khiển một tương tác nhiều bước

Các công cụ trình duyệt tương tự xử lý điền mẫu, chuỗi điều hướng và đánh giá của con người trong vòng. Mô hình: chụp ảnh → xác định tham chiếu → hành động → chụp ảnh → tham chiếu tiếp theo.

text Copy

Bạn: Mở https://app.example.com/contact, điền tên, email và tin nhắn,
     chụp ảnh màn hình mẫu, và dừng lại trước khi gửi để tôi có thể xem xét.
Đại lý: browser_navigate "https://app.example.com/contact"
       browser_snapshot
       # @e1 [input] "Họ và tên", @e2 [input] "Email",
       # @e3 [textarea] "Tin nhắn", @e4 [button] "Gửi"
       browser_type @e1 "Jane Doe"
       browser_type @e2 "jane@example.com"
trình_duyệt_loại @e3 "Xin chào, tôi muốn nói về ..."
       trình_duyệt_tầm_nhìn   # chụp bản render toàn trang để xem xét
       # dừng lại — @e4 không được nhấn cho đến khi người dùng phê duyệt trang đã chụp

---

## Bước 5 — Ghim một khu vực và duy trì một phiên qua các lượt

Đối với bất kỳ mục tiêu nào mà danh sách khác nhau theo khu vực egress (Google SERP, Amazon theo thị trường, đặt phòng khách sạn/chuyến bay, danh bạ doanh nghiệp địa phương), ghim `proxyCountry` tới khu vực mà người dùng dự định. Đối với các luồng đa bước cần cookie ấm và vị trí cuộn qua nhiều lượt đại lý (SERP phân trang, bảng điều khiển xác thực, biểu mẫu nhiều trang), thiết lập `sessionTTL` cao hơn và tái sử dụng cùng một `sessionName`.

```yaml
# Khu vực Tokyo, phiên ấm 15 phút, video có thể phát lại
trình_duyệt:
  cdn_url: "wss://browser.scrapeless.com/api/v2/browser?token=${SCRAPELESS_API_KEY}&proxyCountry=JP&sessionTTL=900&sessionName=tokyo-research&sessionRecording=true"

Chuyển khu vực giữa cuộc trò chuyện chỉ cách /browser connect — Hermes sẽ kết thúc socket hiện tại, gọi URL mới, và browser_navigate tiếp theo sẽ chạy qua lối thoát mới. Ghi âm là cờ có ảnh hưởng cao nhất cho một quy trình không có người giám sát: mọi lần chạy sẽ xuất hiện trong bảng điều khiển Scrapeless dưới dạng video có thể phát lại, vì vậy khi đại lý báo cáo rằng việc trích xuất rỗng, người điều hành có thể thấy những gì trình duyệt đám mây thực sự đã hiển thị.

Điều gì mong đợi khi điều này chạy trên web trực tiếp

Thời gian Hydration thay đổi theo từng trang web. SPAs mà làm mới nội dung qua một XHR thứ cấp có thể cần một browser_scroll hoặc một khoảng thời gian ngắn trước khi ảnh chụp phản ánh DOM cuối cùng. Chụp lại một lần nếu một trường liên tục là null.
Trích xuất không cần selector bền vững hơn selector CSS nhưng không miễn nhiễm với sự trôi dạt bố cục. Cây tính khả dụng sẽ thay đổi khi các trang web thêm một cột mới hoặc đổi tên một nút; nhắc nhở đại lý phát hiện lại các refs hơn là mã hóa chúng trong một kỹ năng đã lưu.
Các trang trung gian chống bot xuất hiện như một chuyển hướng trong ảnh chụp. Khi một trang web tải trước một thách thức Cloudflare hoặc Akamai mà trình duyệt đám mây không thể hoàn thành trong suốt, ảnh chụp sẽ báo cáo trang thách thức thay vì mục tiêu. Mở rộng dấu vân tay hoặc ghim một khu vực proxy khác.
browser_vision bổ sung cho browser_snapshot. Đối với các trang phức tạp về mặt hình ảnh (bảng giá nhúng dưới dạng hình ảnh, biểu đồ, đồ họa thông tin), công cụ tầm nhìn là lối thoát đúng — nó gửi một ảnh chụp màn hình đến mô hình đa phương tiện thay vì văn bản tính khả dụng.
Ghi âm phiên có sức ảnh hưởng cao. sessionRecording=true trên URL WSS biến "đại lý đã làm điều gì đó kỳ lạ" thành một video có thể nhấp trong bảng điều khiển Scrapeless. Kiểm tra trang giá cả xem kế hoạch của bạn có bao gồm ghi âm hay không.

Câu hỏi thường gặp

Tôi có cần một proxy dân cư không?
Có, đối với bất kỳ trang web nào có bảo vệ chống bot đáng kể, mà hầu hết các nhà bán lẻ, thị trường và điểm cuối SERP đều có. Endpoint WSS của Scrapeless định tuyến qua nhóm dân cư theo mặc định; tham số truy vấn proxyCountry gán quốc gia egress.

Kết nối đầu tiên trả về ERR_TUNNEL_CONNECTION_FAILED hoặc os error 10054. Chuyện gì xảy ra tiếp theo?
Cả hai đều là lỗi tạm thời khi khởi động phiên và thường được giải quyết khi thử lại. Phát lại sự nhắc nhở thất bại; đối với các quy trình sản xuất không được bounce trên lần thất bại đầu tiên, bọc nhắc nhở thất bại trong một vòng lặp thử lại nhỏ với khoảng thời gian hồi phục theo cấp số nhân (2s, 5s, 15s).

Một trang web trả về Truy cập Bị từ chối. Chuyện gì xảy ra tiếp theo?
Trước tiên, hãy thử lại — các lớp chống bot thường bị xóa sau khi khởi động lại phiên. Nếu trang tiếp tục chặn, thay đổi proxyCountry đến một khu vực khác, phát lại /browser connect để tạo ra một dấu vân tay mới, hoặc liên hệ với hỗ trợ Scrapeless để xác nhận rằng việc chặn xảy ra ở cấp độ nền tảng chứ không phải ở cấp độ tài khoản.

Các selector cứ bị gãy. Làm thế nào tôi có thể sống sót qua sự xoay vòng DOM?
Sử dụng browser_snapshot thay vì cắt HTML thô bằng selector CSS. Biểu diễn cây tính khả dụng ổn định hơn qua sự trôi dạt bố cục, và đại lý phát hiện lại các refs mỗi lượt thay vì phụ thuộc vào các đường dẫn được mã hóa cứng.

Bao nhiêu công nhân đồng thời trên mỗi máy chủ?
Scrapeless không công bố một giới hạn đồng thời cố định trên mỗi máy chủ; giới hạn tốc độ được xử lý ở cấp độ nền tảng. Đối với các quy trình đa máy chủ, chạy các vòng lặp đại lý độc lập trên từng máy chủ thay vì tập trung vào một miền duy nhất — và xác nhận mức độ đồng thời của tài khoản của bạn trong Bảng điều khiển Scrapeless trước khi mở rộng.

Tôi có thể sử dụng điều này mà không có một đại lý AI không?
Có. Điểm cuối Scrapeless WSS là CDP thông thường — bất kỳ tập lệnh Puppeteer hoặc Playwright nào cũng kết nối với puppeteer.connect({ browserWSEndpoint: ... }) hoặc chromium.connectOverCDP(...) và nhận được cùng một trình duyệt đám mây. Hermes là con đường được khuyên dùng khi nghiên cứu theo yêu cầu trò chuyện hoặc tiếp cận đa kênh quan trọng; điểm cuối CDP là phương án dự phòng ở mức thấp hơn.

Tôi có thể đổi Hermes lấy một tác nhân khác không?
Có. Bất kỳ tác nhân nào hỗ trợ một điểm cuối CDP tùy chỉnh (tích hợp kiểu Browserbase, Sử dụng trình duyệt, quy trình tùy chỉnh Playwright/Puppeteer) đều kết nối với cùng một điểm cuối WSS. Bề mặt tích hợp là giao thức, không phải là khách hàng.

Làm thế nào để tôi giữ cookies và trạng thái đăng nhập trong nhiều phiên tác nhân?
Đặt sessionTTL thành giá trị dài hơn (300–900 giây), gán cho phiên một sessionName ổn định và tránh khởi động lại kết nối giữa các cuộc gọi. Trình duyệt đám mây giữ cùng một hồ sơ trình duyệt, cookies và vị trí cuộn ấm trong suốt thời gian tồn tại của phiên.

Tôi có thể thấy những gì trình duyệt đám mây thực sự đã hiển thị ở đâu?
Thêm sessionRecording=true vào URL WSS. Mỗi lần chạy hiện lên trong bảng điều khiển Scrapeless dưới dạng video có thể phát lại, vì vậy một lần trích xuất trống hoặc một quảng cáo bất ngờ có thể nhìn thấy từ đầu đến cuối mà không cần thao tác với tác nhân.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục

Chương trình Hermes + Scrapeless: Tích hợp CDP 1 dòng cho các tác nhân web chống phát hiện

Những điểm chính:

Giới thiệu: từ Chromium cục bộ đến trình duyệt đám mây bảo mật

Tại sao lại là Scrapeless Scraping Browser

Điều kiện tiên quyết

Cài đặt

1. Lấy khóa API Scrapeless

2. Chỉ định công cụ duyệt web của Hermes đến điểm cuối WSS của Scrapeless

3. Đặt khóa API ra ngoài tệp cấu hình (được khuyên dùng)

4. Xác minh kết nối

Cách bạn thực sự sử dụng điều này: yêu cầu tác nhân của bạn

Các yêu cầu bạn có thể dán

Hình thành các lệnh

Bước 1 — Kết nối với Trình Duyệt Tìm kiếm Scrapeless

Bước 2 — Khám phá với browser_navigate + browser_snapshot

Bước 3 — Trích xuất với các lệnh có cấu trúc

Bước 4 — Điều khiển một tương tác nhiều bước

Điều gì mong đợi khi điều này chạy trên web trực tiếp

Câu hỏi thường gặp

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Bước 2 — Khám phá với `browser_navigate` + `browser_snapshot`