Cách tích hợp Máy chủ MCP không rác vào ZeroClaw: Hướng dẫn từng bước

Sophia Martinez

Specialist in Anti-Bot Strategies

18-May-2026

Những điểm chính:

Một khối TOML kết nối trình duyệt đám mây với một tác tử Rust cục bộ. ZeroClaw là một môi trường chạy tác tử AI dạng nhị phân duy nhất giao tiếp với các nhà cung cấp LLM, lắng nghe trên hơn 30 kênh và hoạt động thông qua các công cụ. Việc thêm Scrapeless MCP Server chỉ cần một khối [mcp] dài bốn dòng trong ~/.zeroclaw/config.toml — không cần cài đặt SDK, không cần quản lý daemon, không cần thay đổi mã bên tác tử.
Hai mươi công cụ MCP, hai bề mặt. Scrapeless MCP Server cung cấp các công cụ google_search, google_trends, toàn bộ bộ nguyên thủy browser_* của trình duyệt đám mây, và scrape_html / scrape_markdown / scrape_screenshot. Vận chuyển Stdio chạy cục bộ qua npx -y scrapeless-mcp-server; HTTP có thể stream được hướng đến https://api.scrapeless.com/mcp.
Kỹ năng MCP và Tác tử là bổ sung cho nhau, không phải là sự thay thế. Máy chủ MCP cung cấp cho ZeroClaw các công cụ; các kỹ năng Scrapeless OpenClaw — webunlocker-skill và llm-chat-scraper-skill — cung cấp cho nó cách thực hiện cho các API Scrapeless cơ bản. ZeroClaw đã di chuyển từ OpenClaw và đọc định dạng SKILL.md giống nhau, vì vậy các kỹ năng được đưa vào ~/.zeroclaw/workspace/skills/ và có thể gọi thông qua zeroclaw skills list.
Trình duyệt đám mây chống phát hiện, proxy dân cư tại hơn 195 quốc gia. Scrapeless xử lý việc kết xuất JavaScript, thoát proxy dân cư, ngẫu nhiên hóa dấu vân tay (UA, múi giờ, WebGL, canvas) và giữ phiên tại mức nền tảng, vì vậy tác tử ZeroClaw tập trung vào nhiệm vụ thay vì các ống dẫn lẩn trốn.
Khám phá → trích xuất hoạt động trên bất kỳ trang web nào. Sử dụng google_search để tìm vị trí trang, scrape_markdown để lấy văn bản sạch từ một SPA kết xuất bằng JS, các công cụ browser_* cho các luồng phân trang hoặc tương tác, và google_trends cho bối cảnh chuỗi thời gian. Tác tử kết hợp chúng lại; không có gì trong giao thức là cụ thể cho mục tiêu.
Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm thời gian chạy MCP miễn phí — đăng ký tại app.scrapeless.com.

Giới thiệu: từ một tác tử Rust cục bộ đến truy cập web trực tiếp

ZeroClaw là một môi trường chạy tác tử Rust hoạt động hoàn toàn trên máy của người vận hành. Một nhị phân, một cấu hình TOML, các khóa của người vận hành, không gian làm việc của người vận hành. Nó kết nối với ~20 nhà cung cấp LLM, tiếp cận thế giới qua Discord, Telegram, Matrix, email, giọng nói, webhooks và CLI, và hành động thông qua shell, trình duyệt, HTTP, phần cứng và công cụ MCP-server. Kho lưu trữ 31k sao cung cấp một mô hình bảo mật được xây dựng xung quanh tự trị giám sát, hộp cát cấp hệ điều hành (Landlock, Bubblewrap, Seatbelt, Docker), và biên nhận công cụ mật mã trên mỗi hành động.

Giới hạn cơ bản của bất kỳ môi trường chạy tác tử cục bộ nào cũng giống như giới hạn mà mọi LLM gặp phải: kiến thức của mô hình bị đóng băng tại điểm cắt đào tạo. Đối với nghiên cứu, giám sát, tạo khách hàng tiềm năng, thông tin cạnh tranh và RAG so với dữ liệu nhà xuất bản trực tiếp, giới hạn đó xuất hiện ngay khi tác tử phải đọc một trang không tồn tại vào thời điểm mô hình được huấn luyện. Trình duyệt và công cụ HTTP tích hợp sẵn của ZeroClaw bao phủ các trang vô hại và tra cứu tài liệu; các trang thương mại phía sau Cloudflare, Akamai, reCAPTCHA hoặc lọc theo IP là một bề mặt khác mà những công cụ đó không được phát triển cho.

Bài viết này hướng dẫn cách kết nối Scrapeless vào ZeroClaw thông qua cả hai bề mặt tích hợp mà môi trường chạy hỗ trợ: Scrapeless MCP Server (cách chính để cung cấp các công cụ mới cho tác tử) và Scrapeless OpenClaw skills (các tệp kiến thức chính mà tác tử tải để điều khiển các công cụ đó hiệu quả). Cả hai bổ sung cho nhau — máy chủ MCP là những gì tác tử gọi; các kỹ năng là những gì cho nó biết khi nào và như thế nào để gọi các API Scrapeless cơ bản. Đối với các nguyên thủy Scrapeless tương tự được cung cấp qua các khách hàng khác, hướng dẫn máy chủ MCP hướng dẫn qua Claude Desktop / Cursor / Codex CLI, và bài viết tích hợp Hermes đề cập đến con đường CDP trực tiếp cho các tác tử đã nói được Chrome DevTools Protocol.

ZeroClaw là gì?

ZeroClaw là một nhị phân Rust duy nhất khởi động một môi trường tác tử trên máy của người vận hành. Những người duy trì mô tả nó như "bạn sở hữu tác tử, bạn sở hữu dữ liệu, bạn sở hữu máy mà nó chạy trên đó." Môi trường chạy được cấu trúc xung quanh bốn phần chuyển động:

Kênh (hơn 30 bộ điều hợp). Các tin nhắn đầu vào từ Discord, Telegram, Matrix, email, giọng nói, webhooks, CLI và cầu nối ACP IDE — tất cả được định tuyến đến cùng một vòng lặp tác tử.
Nhà cung cấp (~20 bộ công cụ LLM). Anthropic, OpenAI, Ollama, bất kỳ đầu cuối tương thích OpenAI nào. Các chuỗi và định tuyến dự phòng giữ cho tác tử hoạt động khi một nhà cung cấp bị lỗi.
Công cụ (shell, trình duyệt, HTTP, phần cứng, MCP). Bề mặt hành động. Các máy chủ MCP đăng ký như là các công cụ hàng đầu bên cạnh các công cụ tích hợp sẵn.
Chính sách bảo mật và động cơ SOP. Tính tự chủ mặc định là giám sát: các thao tác rủi ro trung bình yêu cầu phê duyệt, rủi ro cao bị chặn. Quy trình vận hành tiêu chuẩn hoạt động trên MQTT, webhook, cron, hoặc sự kiện ngoại vi với cổng phê duyệt và khả năng chạy tiếp.

Cấu hình nằm ở một nơi: ~/.zeroclaw/config.toml. Khu vực làm việc — kỹ năng, bộ nhớ, nhật ký, trạng thái MCP — nằm dưới ~/.zeroclaw/workspace/. Các nhà điều hành di chuyển từ OpenClaw có thể nhập khu vực làm việc trực tiếp; định dạng kỹ năng là giống nhau.

Tại sao thêm Truy cập Web vào Đại lý ZeroClaw của bạn

Các LLM hỗ trợ ZeroClaw chia sẻ cùng một hạn chế: thời gian cắt đào tạo. Trong một môi trường di chuyển nhanh chóng sản xuất ba kiểu lỗi có thể quan sát — câu trả lời lỗi thời, sự thật ảo tưởng, và các cuộc gọi công cụ đối với URL đã thay đổi hoặc 404.

ZeroClaw cung cấp các công cụ http và trình duyệt tích hợp sẵn, và chúng bao phủ một bề mặt rộng. Chúng không được tối ưu hóa cho web thương mại: các SPA render bằng JS, các cửa sổ phụ chống bot, các thử thách CAPTCHA, và nội dung bị hạn chế theo địa lý nằm giữa đại lý và dữ liệu mà nhà điều hành thực sự muốn. Kết nối Scrapeless biến những kiểu lỗi đó thành các cuộc gọi công cụ bình thường:

Nghiên cứu thời gian thực thông qua google_search (Google, với các tham số địa phương hóa gl + hl) và google_trends (dữ liệu quan tâm theo thời gian).
Xác thực đa nguồn bằng scrape_markdown chống lại nhiều URL kết quả trong một lượt đại lý.
Thu thập dữ liệu trực tiếp từ các trang JS nặng — trang giá, danh sách thị trường, trang đánh giá, danh bạ công — thông qua các nguyên tắc browser_* của trình duyệt đám mây.
Truy vấn theo địa lý bằng cách cấp phát phiên trong một quốc gia cụ thể, để đại lý thấy những gì người dùng địa phương sẽ thấy.

Cách mở rộng ZeroClaw với Scrapeless: Hai bề mặt

Scrapeless hỗ trợ ZeroClaw thông qua hai bề mặt, được sử dụng cùng nhau:

Máy chủ MCP Scrapeless — máy chủ chính thức cung cấp 20 công cụ trình duyệt đám mây, SERP, và cạo theo Protocolo ngữ cảnh mô hình.
Kỹ năng OpenClaw Scrapeless — các tệp kiến thức định dạng SKILL.md dạy đại lý cách điều khiển API cạo toàn cầu của Scrapeless và Chat Scraper LLM một cách hiệu quả. ZeroClaw nhập kỹ năng OpenClaw trực tiếp.

Máy chủ MCP là thứ mà đại lý gọi. Các kỹ năng là thứ mà đại lý đọc để quyết định khi nào và như thế nào để gọi. Chúng không phải là các lựa chọn thay thế — được cài đặt cùng nhau, đại lý có cả công cụ và sách hướng dẫn.

Máy chủ MCP Scrapeless

Máy chủ MCP cung cấp 20 công cụ ngay từ đầu. Bộ core:

Công cụ	Chức năng của nó
`google_search`	Lấy lại SERP với các tham số địa phương hóa `gl` / `hl`.
`google_trends`	Tìm kiếm xu hướng và dữ liệu quan tâm theo thời gian.
`scrape_markdown`	Render một URL qua trình duyệt đám mây, trả về Markdown.
`scrape_html`	Tương tự, trả về HTML đã được render hoàn chỉnh.
`scrape_screenshot`	Chụp ảnh màn hình chất lượng cao của bất kỳ trang nào.
`browser_create`	Cấp phát (hoặc tái sử dụng) một phiên trình duyệt đám mây.
`browser_goto`	Điều hướng phiên đến một URL.
`browser_click` / `browser_type` / `browser_press_key`	Điều khiển các phần tử trang tương tác.
`browser_scroll` / `browser_scroll_to`	Kích hoạt nội dung tải lười.
`browser_get_html` / `browser_get_text`	Trích xuất từ trang trình duyệt đám mây hiện tại.
`browser_screenshot` / `browser_snapshot`	Chụp trạng thái để xem lại hoặc xử lý sau.
`browser_wait_for` / `browser_wait`	Chờ các bộ chọn hoặc khoảng thời gian cố định.
`browser_close`	Giải phóng phiên.

Hai phương thức vận chuyển được hỗ trợ. Stdio (npx -y scrapeless-mcp-server) là mặc định đúng cho một workstation chạy ZeroClaw cục bộ; HTTP có thể stream (https://api.scrapeless.com/mcp) là mặc định đúng khi đại lý chạy trên một máy chủ từ xa và nhà điều hành muốn máy chủ MCP được lưu trữ bởi Scrapeless hơn là khởi tạo cho mỗi lần gọi.

Kỹ năng OpenClaw Scrapeless

Các kỹ năng là các tệp SKILL.md với một runtime Python nhỏ bao bọc một API Scrapeless cụ thể. Cả hai đều được cung cấp trên tổ chức GitHub chính thức của Scrapeless:

Kỹ năng	Điều vô nghĩa mà nó dạy cho đại lý
`webunlocker-skill`	Điều khiển API cạo toàn cầu của Scrapeless — lấy HTML / Plaintext / Markdown / ảnh chụp màn hình / nội dung có cấu trúc với giải quyết CAPTCHA tự động (reCAPTCHA, Cloudflare Turnstile, Cloudflare Challenge), render JS, egress proxy dân cư với `--country`, thử lại, và hỗ trợ POST + tiêu đề tùy chỉnh.
`llm-chat-scraper-skill`	Thu thập phản hồi trò chuyện có cấu trúc từ ChatGPT, Gemini, Perplexity, và Grok — hữu ích cho giám sát tìm kiếm AI và các luồng đo GEO.

ZeroClaw kế thừa định dạng kỹ năng OpenClaw. Các kỹ năng được sao chép vào ~/.zeroclaw/workspace/skills/, được liệt kê bởi zeroclaw skills list, và trở nên khả dụng cho đại lý trong phiên zeroclaw agent tiếp theo.

Những Gì Bạn Có Thể Làm Với Nó

Đại lý giám sát hàng ngày. Lên lịch một SOP ZeroClaw chạy mỗi sáng: google_search cho các từ khóa được theo dõi, scrape_markdown ba kết quả hàng đầu, tóm tắt, phân phối qua bộ chuyển đổi kênh Discord.
Theo dõi khả năng hiển thị tìm kiếm AI. Với kỹ năng LLM Chat Scraper, lấy phản hồi từ ChatGPT, Gemini, Perplexity và Grok cho các prompt liên quan đến thương hiệu theo chu kỳ; theo dõi sự hiện diện và cảm xúc theo thời gian.
Tạo khách hàng tiềm năng từ danh bạ công khai. Điều khiển trình duyệt đám mây qua một danh bạ công khai phân trang, loại bỏ trùng lặp theo miền, đưa các bản ghi vào bộ nhớ của đại lý.
Điền biểu mẫu xác thực với sự can thiệp của con người. Điều khiển một biểu mẫu đăng ký nhà cung cấp hoặc đơn xin việc đến màn hình xem xét cuối cùng, chụp màn hình cả trang, dừng trước khi gửi để một người có thể phê duyệt.
Giá cả của đối thủ theo địa lý. Phân bổ phiên trong một quốc gia cụ thể, tạo trang giá địa phương, so sánh với ảnh chụp trước đó, thông báo một kênh khi đạt ngưỡng.
RAG với dữ liệu nhà xuất bản trực tiếp. Hiển thị trang của nhà xuất bản để lấy văn bản sạch qua scrape_markdown, nhúng vào bộ nhớ SQLite + nhúng của ZeroClaw, truy xuất cho các lượt sau.
Vượt qua Cloudflare cho các mục tiêu nghiên cứu vô hại. Kỹ năng Web Unlocker xử lý các trang Turnstile và Challenge tự động; đại lý chỉ thấy một tải trọng Markdown sạch.

Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn enquanto nghiêm ngặt tuân thủ các luật, quy định, và chính sách bảo mật của website. Nội dung trong bài viết này chỉ nhằm mục đích minh họa.

Tại Sao Chọn Scrapeless

Scrapeless là một trình duyệt đám mây chống phát hiện cộng với API Scraping Đa năng cộng với API SERP cộng với LLM Chat Scraper, tất cả thông qua một khóa API. Đối với ZeroClaw cụ thể, nó cung cấp:

Một máy chủ MCP bản địa — không cần cài đặt SDK, không cần mã bộ chuyển đổi. Khối MCP trong ~/.zeroclaw/config.toml là toàn bộ tích hợp.
Kết xuất JavaScript trên đám mây nên các SPAs, nguồn cấp dữ liệu cuộn vô hạn và các bảng đã tải lười biếng là mục tiêu hạng nhất cho các công cụ browser_* và scrape_markdown.
Proxy dân cư tại 195+ quốc gia nên các truy vấn theo địa lý trả về các danh sách mà người dùng địa phương sẽ thấy.
Nhận diện ngăn chặn trên mỗi phiên — UA, múi giờ, ngôn ngữ, độ phân giải màn hình, WebGL, canvas được ngẫu nhiên hóa theo phiên.
Giải quyết CAPTCHA tự động cho reCAPTCHA, Cloudflare Turnstile và Cloudflare Challenge thông qua bề mặt Web Unlocker.
Một bề mặt quản lý duy nhất — một khóa API, một bảng điều khiển, tín dụng thời gian chạy miễn phí trong kế hoạch tài khoản mới.

Nhận khóa API trong kế hoạch miễn phí tại app.scrapeless.com. Bề mặt công cụ MCP đầy đủ được ghi chép tại github.com/scrapeless-ai/scrapeless-mcp-server; bề mặt API tại docs.scrapeless.com.

Điều Kiện Tiên Quyết

Một máy chủ giống như UNIX. Linux, macOS, hoặc WSL2 trên Windows. ZeroClaw phát hành các bản xây dựng Windows, nhưng script cài đặt và script kỹ năng giả định một shell POSIX — con đường mượt mà nhất là Linux / macOS / WSL2.
Node.js 18 hoặc mới hơn cho giao thức MCP stdio (npx -y scrapeless-mcp-server).
Python 3.10 hoặc mới hơn cho các kỹ năng OpenClaw (chúng được cung cấp dưới dạng script Python trong scripts/).
Công cụ Rust nếu cài đặt từ mã nguồn; đường dẫn nhị phân được dựng sẵn không cần gì thêm.
Một tài khoản Scrapeless và khóa API — đăng ký tại app.scrapeless.com và sao chép khóa từ Cài đặt → Quản lý Khóa API.
Một khóa nhà cung cấp LLM — Anthropic, OpenAI, Ollama, hoặc bất kỳ điểm cuối tương thích OpenAI nào. Wizard hướng dẫn của ZeroClaw sẽ liên kết nó vào.
git để nhân bản các kho kỹ năng.
jq là tùy chọn — hữu ích khi ống đầu ra CLI, không bắt buộc cho con đường MCP.

Cài Đặt ZeroClaw

Toàn bộ thiết lập có hai bước phụ.

1. Chạy trình cài đặt

bash Copy

curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/master/install.sh | bash

Trình cài đặt hỏi xem có muốn tải về một nhị phân đã dựng sẵn (~giây) hoặc xây dựng từ mã nguồn (chậm hơn, có thể tùy chỉnh). Cả hai đều kết thúc theo cách tương tự — zeroclaw onboard sẽ tự động khởi động. Để bỏ qua wizard ở cuối, truyền --skip-onboard và chạy zeroclaw onboard sau.

Xác minh rằng nhị phân có trên đường dẫn:

bash Copy

zeroclaw --version

Đầu ra nên giống như zeroclaw 0.7.5 hoặc mới hơn.

2. Hoàn tất wizard hướng dẫn

bash Copy

zeroclaw onboard

Wizard sẽ hướng dẫn qua lựa chọn nhà cung cấp, kết nối kênh, chế độ tự động và cá nhân hóa. Đối với tích hợp này, hai cài đặt quan trọng:

Nhà cung cấp — chọn nhà cung cấp LLM nào đã được cấu hình (OpenAI, Anthropic, Ollama, một cổng tương thích OpenAI). Dán khóa API khi được yêu cầu.
Tự động — supervised là mặc định an toàn; tác nhân sẽ nhắc trước khi gọi các công cụ có rủi ro trung bình. Các công cụ MCP được tính là rủi ro trung bình theo mặc định. Đối với một hộp phát triển nơi việc nhắc nhở tạo ra ma sát, wizard cũng cung cấp chế độ yolo, mà người vận hành chỉ nên bật trên máy đáng tin cậy.

Xác nhận rằng runtime đã hoạt động bằng cách bắt đầu một cuộc trò chuyện:

bash Copy

zeroclaw agent

Một "Hey!" nên trả về một kết quả hoàn thành bình thường. Nếu có, runtime đang khỏe mạnh và bước tiếp theo là kết nối với server MCP.

Kết nối ZeroClaw với Server MCP Scrapeless

1. Kiểm tra server MCP ngoài ZeroClaw

Trước khi thêm khối MCP vào config.toml, xác nhận rằng server có thể khởi động độc lập. ZeroClaw lazy-load các server MCP khi tác nhân khởi động, vì vậy một cấu hình bị hỏng chỉ xuất hiện lần đầu tiên tác nhân chạy — tốt hơn là bắt lỗi ngay bây giờ:

bash Copy

SCRAPELESS_KEY="<KEY_SCRAPELESS_CỦA_BẠN>" npx -y scrapeless-mcp-server

Trong lần chạy đầu tiên, npx sẽ tải scrapeless-mcp-server từ registry và server khởi động qua stdio. Quá trình vẫn liên kết; nhấn Ctrl-C để giải phóng. Nếu nó in một banner khởi động và đang chờ các yêu cầu MCP, thì thông tin xác thực và gói đều hoạt động.

Lấy khóa API của bạn trên gói miễn phí: app.scrapeless.com

2. Thêm khối MCP vào `~/.zeroclaw/config.toml`

ZeroClaw đọc cấu hình server MCP từ một khối [mcp] trong cấu hình toàn cục. Thêm (hoặc hợp nhất) những nội dung sau:

toml Copy

# ~/.zeroclaw/config.toml

[mcp]
enabled = true
deferred_loading = true
servers = [
  { name = "scrapeless", command = "npx", transport = "stdio", args = ["-y", "scrapeless-mcp-server"], env = { SCRAPELESS_KEY = "<KEY_SCRAPELESS_CỦA_BẠN>" }, headers = {} }
]

Ghi chú:

enabled = true kích hoạt hệ thống con MCP. Các phiên bản ZeroClaw gần đây mặc định là tắt.
deferred_loading = true giữ cho quá trình khởi động daemon nhanh chóng; ZeroClaw chỉ tạo ra npx khi tác nhân thật sự bắt đầu một phiên.
env.SCRAPELESS_KEY là bề mặt xác thực — khóa giống như đã sử dụng trong bước kiểm tra khói ở bước 1.
Đối với giao thức HTTP streamable-hosted thay vì stdio, thay thế mục tiêu bằng:
toml Copy
```
{ name = "scrapeless", transport = "http", url = "https://api.scrapeless.com/mcp", headers = { "x-api-token" = "<KEY_SCRAPELESS_CỦA_BẠN>" } }
```
Stack khách hàng MCP của ZeroClaw hỗ trợ ba giá trị giao thức — stdio, http, và sse — với sự xác thực yêu cầu command / args cho stdio và url / headers cho các giao thức từ xa (theo vấn đề ZeroClaw #1380). Giao thức HTTP là mặc định đúng khi ZeroClaw chạy trên một máy chủ từ xa (VPS hoặc container) và người vận hành không muốn npx chạy ở đó.

3. Xác nhận kết nối từ bên trong ZeroClaw

Khởi động lại phiên tác nhân để nó nhận cấu hình mới và lazy-load server MCP:

bash Copy

zeroclaw agent

Trong một cuộc trò chuyện mới, hỏi:

Copy

Bạn có quyền truy cập vào những công cụ MCP Scrapeless nào?

Tác nhân nên liệt kê 20 công cụ đã đề cập trước đó — google_search, google_trends, tập hợp browser_*, scrape_html, scrape_markdown, scrape_screenshot. Nếu câu trả lời là không có công cụ nào, nguyên nhân phổ biến nhất là enabled = false trong [mcp]; nguyên nhân phổ biến thứ hai là sai chính tả trong SCRAPELESS_KEY.

Cài đặt Kỹ năng OpenClaw Scrapeless

Server MCP là các công cụ. Các kỹ năng là sổ tay hành động. Cả hai kỹ năng Scrapeless đều hoạt động với ZeroClaw vì runtime hỗ trợ định dạng kỹ năng OpenClaw trực tiếp.

1. Cho phép các script kỹ năng trong `~/.zeroclaw/config.toml`

Cả hai kỹ năng Scrapeless đều cung cấp các thư mục scripts/ mà tác nhân thực thi. Đặt allow_scripts = true trong phần [skills]:

toml Copy

# ~/.zeroclaw/config.toml

[skills]
allow_scripts = true

allow_scripts được tắt theo mặc định vì lý do an toàn. Bật nó cho phép ZeroClaw quyền chạy các script được gói theo kỹ năng dưới chính sách tự động đã được thực thi; việc gọi script có rủi ro trung bình vẫn sẽ yêu cầu phê duyệt dưới chế độ supervised.

2. Nhân bản các kho kỹ năng

bash Copy

mkdir -p ~/.zeroclaw/workspace/skills
git clone https://github.com/scrapeless-ai/webunlocker-skill ~/.zeroclaw/workspace/skills/webunlocker-skill
git clone https://github.com/scrapeless-ai/llm-chat-scraper-skill ~/.zeroclaw/workspace/skills/llm-chat-scraper-skill

3. Cài đặt các phụ thuộc Python và token API

Kỹ năng Web Unlocker cung cấp một requirements.txt:

bash Copy

cd ~/.zeroclaw/workspace/skills/webunlocker-skill
pip install -r requirements.txt
cp .env.example .env
# Sau đó chỉnh sửa .env và đặt X_API_TOKEN=<KEY_SCRAPELESS_CỦA_BẠN>

Lặp lại cho kỹ năng LLM Chat Scraper nếu nó trong phạm vi cho tác nhân.

4. Xác nhận rằng các kỹ năng có thể nhìn thấy từ ZeroClaw

bash Copy

zeroclaw skills list

Kết quả đầu ra nên bao gồm webunlocker-skill và llm-chat-scraper-skill. Nếu chúng thiếu, nguyên nhân phổ biến nhất là bản sao đã được lưu vào ~/.zeroclaw/skills/ thay vì ~/.zeroclaw/workspace/skills/ — đường dẫn sau là đường dẫn mà runtime theo dõi.

ZeroClaw + Scrapeless trong Hành Động

Một ví dụ thực tế: một báo cáo cạnh tranh hàng ngày về một chủ đề mà người điều hành theo dõi. Đại lý xác định các nguồn tươi mới, trích xuất nội dung và tạo ra một bản tóm tắt có cấu trúc, được gửi đến bất kỳ kênh nào mà đại lý đã liên kết.

Trong zeroclaw agent, dán:

Copy

Hãy xây dựng cho tôi một báo cáo cạnh tranh về "khung AI đại lý" trong 7 ngày qua.

1. Sử dụng công cụ MCP Scrapeless `google_search` để tìm 5 tin tức / blog
   liên quan nhất được xuất bản trong tuần này. Sử dụng gl=us, hl=en.
2. Đối với mỗi URL kết quả, sử dụng `scrape_markdown` để lấy nội dung bài viết. Loại bỏ
   các yếu tố điều hướng và quảng cáo.
3. Sử dụng `google_trends` để lấy đường cong quan tâm trong 7 ngày cho truy vấn
   "khung AI đại lý" để tôi có tín hiệu cầu cùng với tín hiệu cung.
4. Tạo một báo cáo Markdown có cấu trúc với:
   - Top 3 chủ đề trong 5 bài viết, mỗi chủ đề có một tóm tắt một câu và
     URL nguồn.
   - Hướng xu hướng trong 7 ngày (tăng / phẳng / giảm) và ngày cao điểm.
   - Một phần "điều gì đã thay đổi trong tuần này" — bất kỳ điều gì mới so với báo cáo của tuần trước.

Nếu một trang mục tiêu chặn trình duyệt đám mây, hãy quay lại `browser_create` +
`browser_goto` + `browser_get_text` chỉ cho URL đó. Không thay thế nội dung tổng hợp;
nếu một nguồn không thể lấy được, hãy liệt kê nó dưới "các nguồn chưa lấy được".

Kế hoạch của đại lý, bằng tiếng Anh giản dị:

Gọi google_search(q="khung AI đại lý", gl="us", hl="en") và chọn năm kết quả mới nhất trông giống như các nguồn chính (bỏ qua các trang tổng hợp).
Lặp lại các URL qua scrape_markdown và giữ lại văn bản cơ thể đã được làm sạch trong bộ nhớ làm việc.
Gọi google_trends(q="khung AI đại lý", date="now 7-d") cho đường cong quan tâm.
Tóm tắt thành một báo cáo Markdown.
Đối với bất kỳ URL nào trả về một trang chặn chống bot thông qua scrape_markdown, hãy thử lại qua chuỗi browser_create → browser_goto → browser_get_text, điều này khởi động một phiên trình duyệt đám mây và chờ đợi trước khi trích xuất.

Trước mỗi lần gọi công cụ, chế độ tự chủ supervised của ZeroClaw yêu cầu phê duyệt — Y cho phê duyệt một lần, A để nhớ quyền cho các lần gọi công cụ trong cùng một phiên.

Để gửi lời nhắc mà không vào trò chuyện tương tác:

bash Copy

zeroclaw agent --message "Hãy xây dựng cho tôi một báo cáo cạnh tranh về khung AI đại lý trong 7 ngày qua..."

Để biến điều này thành một quy trình theo lịch thay vì một lời nhắc tạm thời, hãy đăng ký một SOP theo lịch cron và liên kết nó với bất kỳ bộ điều hợp kênh nào mà đại lý nên gửi báo cáo qua (Discord, Telegram, email). Các công cụ MCP và kỹ năng vẫn giữ nguyên; chỉ có kích hoạt thay đổi.

Những Gì Bạn Nhận Được

Báo cáo quay lại dưới dạng một tải trọng Markdown theo các nội dung sau — được lấy từ một lần chạy thực tế của lời nhắc trên đối với năm kết quả SERP trực tiếp cho "khung AI đại lý 2026":

markdown Copy

# Khung AI Đại Lý — Báo Cáo Hàng Tuần (tuần từ 12-Tháng 5-2026)

## Chủ đề (7 ngày qua)
1. **LangGraph là tiêu chuẩn sản xuất đồng thuận.** Tất cả ba
   so sánh sâu được xuất bản trong tuần này (Towards AI, GuruSup, Alice Labs) xếp
   LangGraph #1 cho khối lượng sản xuất. Các lý do được trích dẫn hội tụ:
   thực thi đồ thị xác định, các điểm kiểm tra con người trong vòng, 
   và khả năng quan sát hàng đầu thông qua LangSmith.
   Nguồn: https://pub.towardsai.net/top-ai-agent-frameworks-in-2026-a-production-ready-comparison-7ba5e39ad56d
2. **MCP đang nổi lên như tiêu chuẩn tích hợp công cụ giữa các khung.**
   Giao thức Ngữ cảnh Mô hình của Anthropic — hiện được quản lý bởi Quỹ Linux
   với OpenAI, Google, Microsoft, AWS và Salesforce trong danh sách người ủng hộ —
   được tham khảo như tiêu chuẩn đại lý-tới-công cụ trong hai trong ba so sánh.
   Nguồn: https://gurusup.com/blog/best-multi-agent-frameworks-2026
3. **Phân tách AutoGen / AG2 là phát triển chính trong 2025–2026.** Microsoft
   đã viết lại AutoGen thành v0.4+ với API mới; cộng đồng tiếp tục dòng v0.2
   như AG2 (ag2.ai). Cả Alice Labs và GuruSup đều báo cáo điều này như một "khoảnh khắc
   lựa chọn có chủ ý" cho các nhóm đánh giá các khung tranh luận đa tác nhân.
   Nguồn: https://alicelabs.ai/en/insights/best-ai-agent-frameworks-2026

## Tín hiệu cầu
- Xu hướng 7 ngày: không khả dụng (google_trends trả về một lỗi tạm thời
  ở phía trên cho lần chạy này — hãy thử lại vào lịch tiếp theo)

## Điều gì đã thay đổi trong tuần này
- Alice Labs đã thêm Claude Agent SDK như một người mới gia nhập ở vị trí #2, đẩy CrewAI
  xuống vị trí #3 — xếp hạng đầu tiên mà chúng tôi thấy nâng cao SDK chính thức của Anthropic lên trên
  các đại lý đa tác nhân.
- Trạng thái nhánh AutoGen / AG2 được đề cập trong 2 trong 3 bài viết, tăng từ 0 tuần trước.

## Các nguồn chưa lấy được
- (không — alicelabs.ai SPA yêu cầu đường dẫn dự phòng browser_*; đã phục hồi)

Cấu trúc theo đúng yêu cầu; các giá trị là những gì chuỗi công cụ đã được xác thực thực sự trả về vào ngày mà bản tóm tắt diễn ra. Một vài quan sát chân thực dựa trên lần chạy trực tiếp:

scrape_markdown làm sạch hầu hết các trang nhà xuất bản một cách tốt. Towards AI và GuruSup đã trả về các thân Markdown sạch trong lần thử đầu tiên. Các SPA được render bằng JS nặng (alicelabs.ai là một SPA Webflow / Vite trong lần chạy này) đã trả về khung HTML được render thay vì — tác nhân đã phục hồi thông qua chuỗi browser_create → browser_goto → browser_get_text, điều này đã trả về một snapshot trang hoàn toàn có cấu trúc bao gồm danh sách đã xếp hạng, những điểm chính, FAQ, và thời gian cập nhật tháng 5-2026.
google_trends là sự quan tâm, không phải khối lượng — và đôi khi là tạm thời. Trong lần xác thực, cuộc gọi Trends phía trên đã trả về lỗi load failed; yêu cầu này xử lý điều này bằng cách báo cáo sự thiếu hụt thay vì thay thế dữ liệu nhân tạo. Tư thế thử lại đúng là lần chạy đã lên lịch tiếp theo, không phải là thử lại nóng bên trong cùng một lượt tác nhân.
Mức độ tươi mới theo từng nguồn thay đổi. Một số nhà xuất bản cập nhật thời gian khi họ cập nhật bài viết; nếu "tươi mới" thực sự quan trọng, hãy kiểm tra ngày xuất bản trong nội dung bài viết, không phải đoạn trích SERP. (Trang Alice Labs trong lần chạy này cho thấy cả ngày xuất bản tháng 4-2026 và ngày cập nhật tháng 5-2026 trong nội dung.)
Các bố cục chống bot và khung SPA là bình thường, không phải ngoại lệ. Dự trù cho việc browser_* dự phòng trong bất kỳ yêu cầu nào liên quan đến các trang thương mại quy mô lớn; lần chạy xác thực đã gặp một trong ba URL và quá trình phục hồi không có sự cố gì.

Kết luận: một tác nhân đọc web trực tiếp

Tích hợp ZeroClaw + Scrapeless giảm xuống còn bốn bước mà người vận hành thực hiện một lần: cài đặt ZeroClaw, đăng ký máy chủ Scrapeless MCP trong ~/.zeroclaw/config.toml, thả các kỹ năng OpenClaw vào ~/.zeroclaw/workspace/skills/, và xác minh với zeroclaw skills list và một yêu cầu danh sách công cụ trong zeroclaw agent. Sau đó, mỗi lượt tác nhân chạm vào web — nghiên cứu, giám sát, tạo khách hàng tiềm năng, hấp thụ RAG, theo dõi sự hiển thị tìm kiếm AI — đều đi qua trình duyệt đám mây, các proxy dân cư và API SERP đằng sau một khóa API.

Đối với cùng một nguyên tắc Scrapeless trong các khách hàng khác, hướng dẫn máy chủ MCP bao gồm Claude Desktop / Cursor / Codex CLI, bài viết tích hợp Hermes bao gồm CDP trực tiếp, và bài viết tích hợp LangChain bao gồm các tác nhân Python. Mô hình trên tất cả chúng là giống nhau: cố định một khu vực dân cư, giữ phiên làm ấm qua các dòng nhiều bước, coi bố cục chống bot như một trường hợp thử lại thay vì một ngoại lệ, và để tác nhân tạo thành google_search → scrape_markdown → browser_* thành bất cứ điều gì mà yêu cầu thực sự hỏi.

Sẵn sàng Xây Dựng Đường Dẫn Dữ Liệu Powered by AI?

Tham gia cộng đồng của chúng tôi để nhận kế hoạch miễn phí và kết nối với các nhà phát triển xây dựng các đường dẫn tác nhân địa phương trên Scrapeless: Discord · Telegram.

Đăng ký tại app.scrapeless.com để nhận thời gian chạy MCP miễn phí và điều chỉnh các mẫu ở trên cho bất kỳ quy trình nào mà tác nhân ZeroClaw đã chạy.

FAQ

Q1. Máy chủ MCP của Scrapeless có hoạt động trên Windows, hay chỉ Linux / macOS?
Máy chủ MCP là một gói Node.js — nó chạy ở bất kỳ đâu Node 18+ chạy, bao gồm cả Windows. Trình cài đặt của ZeroClaw giả định một shell POSIX, vì vậy con đường mượt mà nhất trên Windows là WSL2. Biến thể vận chuyển HTTP (hướng ZeroClaw đến https://api.scrapeless.com/mcp) loại bỏ hoàn toàn sự phụ thuộc vào npx cục bộ và là lựa chọn dễ nhất cho các triển khai ZeroClaw được lưu trữ.

Q2. Stdio hay HTTP streamable — đâu là vận chuyển mặc định đúng?
Đối với một workstation chạy ZeroClaw cục bộ, stdio. Vòng đời rất đơn giản: ZeroClaw khởi động npx -y scrapeless-mcp-server khi tác nhân bắt đầu, tắt nó khi tác nhân dừng. Đối với ZeroClaw trên VPS hoặc trong một container, HTTP. Điểm cuối do Scrapeless lưu trữ loại bỏ sự cần thiết phải gói npx và Node vào hình ảnh thời gian chạy.

Q3. Việc thu thập dữ liệu từ web công khai có hợp pháp không?
Thông thường có, khi dữ liệu có thể nhìn thấy công khai và quy trình tôn trọng các điều khoản dịch vụ của từng trang và các quyền hạn áp dụng. Tư thế pháp lý thay đổi theo từng quốc gia, theo từng trang và theo từng trường hợp sử dụng (nghiên cứu, bán lại thương mại, dữ liệu đào tạo). Kiểm tra Điều khoản dịch vụ của trang mục tiêu trước khi mở rộng quy trình chống lại nó, và tư vấn luật sư cho các trường hợp sử dụng quy mô lớn hoặc theo quy định.

Q4. Máy chủ MCP và các kỹ năng OpenClaw có chồng chéo không?
Chúng bổ sung cho nhau. Máy chủ MCP cung cấp cho tác nhân công cụ — các bề mặt cụ thể, có thể gọi (google_search, scrape_markdown, browser_*). Các kỹ năng cung cấp cho tác nhân kiến thức — cách mà API Scraping Universal Scrapeleless hoạt động, khi nào nên quay lại việc kết xuất JS, loại phản hồi nào để yêu cầu, làm thế nào để ghép nối việc giải CAPTCHA với việc chọn quốc gia. Khi được cài đặt cùng nhau, tác nhân có cả hai.

Q5. Điều gì xảy ra khi một trang mục tiêu trả về một trang chặn bot?
Đối với scrape_markdown khi đối mặt với hầu hết các trang, trình duyệt đám mây giải quyết thách thức một cách minh bạch. Đối với những trang vẫn trả về một trang chặn, phương pháp quay lại tiêu chuẩn là browser_create → browser_goto → browser_wait_for (một bộ chọn đã biết sau thách thức) → browser_get_text. Dự trù cho phương pháp quay lại này trong bất kỳ yêu cầu nào chạm đến các trang thương mại; ví dụ yêu cầu ở trên cho thấy hình dạng.

Q6. Chế độ tự chủ của ZeroClaw tương tác như thế nào với các cuộc gọi công cụ MCP?
Dưới chế độ supervised (mặc định), tác nhân yêu cầu trước khi gọi mỗi công cụ MCP lần đầu tiên. Người vận hành có thể cấp phê duyệt một lần (Y) hoặc phê duyệt nhớ-công cụ-này (A). Dưới chế độ yolo, tác nhân gọi công cụ mà không cần yêu cầu; chế độ này chỉ phù hợp trên một hộp phát triển đáng tin cậy.

Q7. Tác nhân có thể kết hợp các cuộc gọi Scrapeless thành các luồng nhiều bước trong một lượt không?
Có — đó là điểm thiết kế. Một lượt tác nhân đơn lẻ thường liên kết google_search (định vị), scrape_markdown (trích xuất từ URL chuẩn), và browser_* (quay lại cho các trang tương tác hoặc được bảo vệ chống bot). ZeroClaw truyền các cuộc gọi công cụ trung gian vào cùng một ngữ cảnh cuộc trò chuyện.

Q8. Khóa API Scrapeless nằm ở đâu?
Đối với đường đi MCP, ở env.SCRAPELESS_KEY bên trong ~/.zeroclaw/config.toml (hoặc trong tiêu đề x-api-token có thể stream được của HTTP). Đối với đường đi kỹ năng, ở trong tệp .env bên trong mỗi thư mục kỹ năng dưới dạng X_API_TOKEN. Hai đường đi là độc lập; xoay vòng khóa có nghĩa là cập nhật cả hai vị trí.

Q9. Một SOP của ZeroClaw có thể chạy cùng một yêu cầu theo lịch trình không?
Có. Đăng ký một SOP với bộ kích hoạt cron mà chạy cùng một yêu cầu mà người vận hành sẽ dán vào zeroclaw agent --message "...". Liên kết SOP với một bộ điều hợp kênh (Discord, Telegram, email) và thông tin được gửi tự động. Các SOP ở chế độ supervised vẫn yêu cầu phê duyệt cho các cuộc gọi công cụ có rủi ro trung bình; cho các lần chạy theo lịch không giám sát, SOP cần được cấu hình dưới một chế độ tự chủ thoải mái hơn hoặc với quyền công cụ đã được cấp trước.

Q10. Còn các sản phẩm khác của Scrapeless thì sao — Trình duyệt Scraping, API Scraping Universal, API SERP?
Máy chủ MCP gói ghém các bộ công cụ trình duyệt đám mây, SERP và các nguyên tắc scrape phổ biến nhất vào một bề mặt MCP. Đối với các quy trình công việc cần trực tiếp toàn bộ bộ nguyên tắc Trình duyệt Scraping (CDP, dấu vân tay tùy chỉnh, duy trì phiên ở độ granularity session_ttl), hãy kết nối đầu cuối CDP Trình duyệt Scraping vào công cụ browser tích hợp sẵn của ZeroClaw. Hai cách tiếp cận này có thể kết hợp với nhau; chúng không mâu thuẫn.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục

Cách tích hợp Máy chủ MCP không rác vào ZeroClaw: Hướng dẫn từng bước

Những điểm chính:

Giới thiệu: từ một tác tử Rust cục bộ đến truy cập web trực tiếp

ZeroClaw là gì?

Tại sao thêm Truy cập Web vào Đại lý ZeroClaw của bạn

Cách mở rộng ZeroClaw với Scrapeless: Hai bề mặt

Máy chủ MCP Scrapeless

Kỹ năng OpenClaw Scrapeless

Những Gì Bạn Có Thể Làm Với Nó

Tại Sao Chọn Scrapeless

Điều Kiện Tiên Quyết

Cài Đặt ZeroClaw

1. Chạy trình cài đặt

2. Hoàn tất wizard hướng dẫn

Kết nối ZeroClaw với Server MCP Scrapeless

1. Kiểm tra server MCP ngoài ZeroClaw

2. Thêm khối MCP vào ~/.zeroclaw/config.toml

3. Xác nhận kết nối từ bên trong ZeroClaw

Cài đặt Kỹ năng OpenClaw Scrapeless

1. Cho phép các script kỹ năng trong ~/.zeroclaw/config.toml

2. Nhân bản các kho kỹ năng

3. Cài đặt các phụ thuộc Python và token API

4. Xác nhận rằng các kỹ năng có thể nhìn thấy từ ZeroClaw

ZeroClaw + Scrapeless trong Hành Động

Những Gì Bạn Nhận Được

Kết luận: một tác nhân đọc web trực tiếp

Sẵn sàng Xây Dựng Đường Dẫn Dữ Liệu Powered by AI?

FAQ

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

2. Thêm khối MCP vào `~/.zeroclaw/config.toml`

1. Cho phép các script kỹ năng trong `~/.zeroclaw/config.toml`