Cách tích hợp Máy chủ MCP không rác vào ZeroClaw: Hướng dẫn từng bước
Specialist in Anti-Bot Strategies
Những điểm chính:
- Một khối TOML kết nối trình duyệt đám mây với một tác tử Rust cục bộ. ZeroClaw là một môi trường chạy tác tử AI dạng nhị phân duy nhất giao tiếp với các nhà cung cấp LLM, lắng nghe trên hơn 30 kênh và hoạt động thông qua các công cụ. Việc thêm Scrapeless MCP Server chỉ cần một khối
[mcp]dài bốn dòng trong~/.zeroclaw/config.toml— không cần cài đặt SDK, không cần quản lý daemon, không cần thay đổi mã bên tác tử. - Hai mươi công cụ MCP, hai bề mặt. Scrapeless MCP Server cung cấp các công cụ
google_search,google_trends, toàn bộ bộ nguyên thủybrowser_*của trình duyệt đám mây, vàscrape_html/scrape_markdown/scrape_screenshot. Vận chuyển Stdio chạy cục bộ quanpx -y scrapeless-mcp-server; HTTP có thể stream được hướng đếnhttps://api.scrapeless.com/mcp. - Kỹ năng MCP và Tác tử là bổ sung cho nhau, không phải là sự thay thế. Máy chủ MCP cung cấp cho ZeroClaw các công cụ; các kỹ năng Scrapeless OpenClaw —
webunlocker-skillvàllm-chat-scraper-skill— cung cấp cho nó cách thực hiện cho các API Scrapeless cơ bản. ZeroClaw đã di chuyển từ OpenClaw và đọc định dạngSKILL.mdgiống nhau, vì vậy các kỹ năng được đưa vào~/.zeroclaw/workspace/skills/và có thể gọi thông quazeroclaw skills list. - Trình duyệt đám mây chống phát hiện, proxy dân cư tại hơn 195 quốc gia. Scrapeless xử lý việc kết xuất JavaScript, thoát proxy dân cư, ngẫu nhiên hóa dấu vân tay (UA, múi giờ, WebGL, canvas) và giữ phiên tại mức nền tảng, vì vậy tác tử ZeroClaw tập trung vào nhiệm vụ thay vì các ống dẫn lẩn trốn.
- Khám phá → trích xuất hoạt động trên bất kỳ trang web nào. Sử dụng
google_searchđể tìm vị trí trang,scrape_markdownđể lấy văn bản sạch từ một SPA kết xuất bằng JS, các công cụbrowser_*cho các luồng phân trang hoặc tương tác, vàgoogle_trendscho bối cảnh chuỗi thời gian. Tác tử kết hợp chúng lại; không có gì trong giao thức là cụ thể cho mục tiêu. - Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm thời gian chạy MCP miễn phí — đăng ký tại app.scrapeless.com.
Giới thiệu: từ một tác tử Rust cục bộ đến truy cập web trực tiếp
ZeroClaw là một môi trường chạy tác tử Rust hoạt động hoàn toàn trên máy của người vận hành. Một nhị phân, một cấu hình TOML, các khóa của người vận hành, không gian làm việc của người vận hành. Nó kết nối với ~20 nhà cung cấp LLM, tiếp cận thế giới qua Discord, Telegram, Matrix, email, giọng nói, webhooks và CLI, và hành động thông qua shell, trình duyệt, HTTP, phần cứng và công cụ MCP-server. Kho lưu trữ 31k sao cung cấp một mô hình bảo mật được xây dựng xung quanh tự trị giám sát, hộp cát cấp hệ điều hành (Landlock, Bubblewrap, Seatbelt, Docker), và biên nhận công cụ mật mã trên mỗi hành động.
Giới hạn cơ bản của bất kỳ môi trường chạy tác tử cục bộ nào cũng giống như giới hạn mà mọi LLM gặp phải: kiến thức của mô hình bị đóng băng tại điểm cắt đào tạo. Đối với nghiên cứu, giám sát, tạo khách hàng tiềm năng, thông tin cạnh tranh và RAG so với dữ liệu nhà xuất bản trực tiếp, giới hạn đó xuất hiện ngay khi tác tử phải đọc một trang không tồn tại vào thời điểm mô hình được huấn luyện. Trình duyệt và công cụ HTTP tích hợp sẵn của ZeroClaw bao phủ các trang vô hại và tra cứu tài liệu; các trang thương mại phía sau Cloudflare, Akamai, reCAPTCHA hoặc lọc theo IP là một bề mặt khác mà những công cụ đó không được phát triển cho.
Bài viết này hướng dẫn cách kết nối Scrapeless vào ZeroClaw thông qua cả hai bề mặt tích hợp mà môi trường chạy hỗ trợ: Scrapeless MCP Server (cách chính để cung cấp các công cụ mới cho tác tử) và Scrapeless OpenClaw skills (các tệp kiến thức chính mà tác tử tải để điều khiển các công cụ đó hiệu quả). Cả hai bổ sung cho nhau — máy chủ MCP là những gì tác tử gọi; các kỹ năng là những gì cho nó biết khi nào và như thế nào để gọi các API Scrapeless cơ bản. Đối với các nguyên thủy Scrapeless tương tự được cung cấp qua các khách hàng khác, hướng dẫn máy chủ MCP hướng dẫn qua Claude Desktop / Cursor / Codex CLI, và bài viết tích hợp Hermes đề cập đến con đường CDP trực tiếp cho các tác tử đã nói được Chrome DevTools Protocol.
ZeroClaw là gì?
ZeroClaw là một nhị phân Rust duy nhất khởi động một môi trường tác tử trên máy của người vận hành. Những người duy trì mô tả nó như "bạn sở hữu tác tử, bạn sở hữu dữ liệu, bạn sở hữu máy mà nó chạy trên đó." Môi trường chạy được cấu trúc xung quanh bốn phần chuyển động:
- Kênh (hơn 30 bộ điều hợp). Các tin nhắn đầu vào từ Discord, Telegram, Matrix, email, giọng nói, webhooks, CLI và cầu nối ACP IDE — tất cả được định tuyến đến cùng một vòng lặp tác tử.
- Nhà cung cấp (~20 bộ công cụ LLM). Anthropic, OpenAI, Ollama, bất kỳ đầu cuối tương thích OpenAI nào. Các chuỗi và định tuyến dự phòng giữ cho tác tử hoạt động khi một nhà cung cấp bị lỗi.
- Công cụ (shell, trình duyệt, HTTP, phần cứng, MCP). Bề mặt hành động. Các máy chủ MCP đăng ký như là các công cụ hàng đầu bên cạnh các công cụ tích hợp sẵn.
- Chính sách bảo mật và động cơ SOP. Tính tự chủ mặc định là
giám sát: các thao tác rủi ro trung bình yêu cầu phê duyệt, rủi ro cao bị chặn. Quy trình vận hành tiêu chuẩn hoạt động trên MQTT, webhook, cron, hoặc sự kiện ngoại vi với cổng phê duyệt và khả năng chạy tiếp.
Cấu hình nằm ở một nơi: ~/.zeroclaw/config.toml. Khu vực làm việc — kỹ năng, bộ nhớ, nhật ký, trạng thái MCP — nằm dưới ~/.zeroclaw/workspace/. Các nhà điều hành di chuyển từ OpenClaw có thể nhập khu vực làm việc trực tiếp; định dạng kỹ năng là giống nhau.
Tại sao thêm Truy cập Web vào Đại lý ZeroClaw của bạn
Các LLM hỗ trợ ZeroClaw chia sẻ cùng một hạn chế: thời gian cắt đào tạo. Trong một môi trường di chuyển nhanh chóng sản xuất ba kiểu lỗi có thể quan sát — câu trả lời lỗi thời, sự thật ảo tưởng, và các cuộc gọi công cụ đối với URL đã thay đổi hoặc 404.
ZeroClaw cung cấp các công cụ http và trình duyệt tích hợp sẵn, và chúng bao phủ một bề mặt rộng. Chúng không được tối ưu hóa cho web thương mại: các SPA render bằng JS, các cửa sổ phụ chống bot, các thử thách CAPTCHA, và nội dung bị hạn chế theo địa lý nằm giữa đại lý và dữ liệu mà nhà điều hành thực sự muốn. Kết nối Scrapeless biến những kiểu lỗi đó thành các cuộc gọi công cụ bình thường:
- Nghiên cứu thời gian thực thông qua
google_search(Google, với các tham số địa phương hóagl+hl) vàgoogle_trends(dữ liệu quan tâm theo thời gian). - Xác thực đa nguồn bằng
scrape_markdownchống lại nhiều URL kết quả trong một lượt đại lý. - Thu thập dữ liệu trực tiếp từ các trang JS nặng — trang giá, danh sách thị trường, trang đánh giá, danh bạ công — thông qua các nguyên tắc
browser_*của trình duyệt đám mây. - Truy vấn theo địa lý bằng cách cấp phát phiên trong một quốc gia cụ thể, để đại lý thấy những gì người dùng địa phương sẽ thấy.
Cách mở rộng ZeroClaw với Scrapeless: Hai bề mặt
Scrapeless hỗ trợ ZeroClaw thông qua hai bề mặt, được sử dụng cùng nhau:
- Máy chủ MCP Scrapeless — máy chủ chính thức cung cấp 20 công cụ trình duyệt đám mây, SERP, và cạo theo Protocolo ngữ cảnh mô hình.
- Kỹ năng OpenClaw Scrapeless — các tệp kiến thức định dạng
SKILL.mddạy đại lý cách điều khiển API cạo toàn cầu của Scrapeless và Chat Scraper LLM một cách hiệu quả. ZeroClaw nhập kỹ năng OpenClaw trực tiếp.
Máy chủ MCP là thứ mà đại lý gọi. Các kỹ năng là thứ mà đại lý đọc để quyết định khi nào và như thế nào để gọi. Chúng không phải là các lựa chọn thay thế — được cài đặt cùng nhau, đại lý có cả công cụ và sách hướng dẫn.
Máy chủ MCP Scrapeless
Máy chủ MCP cung cấp 20 công cụ ngay từ đầu. Bộ core:
| Công cụ | Chức năng của nó |
|---|---|
google_search |
Lấy lại SERP với các tham số địa phương hóa gl / hl. |
google_trends |
Tìm kiếm xu hướng và dữ liệu quan tâm theo thời gian. |
scrape_markdown |
Render một URL qua trình duyệt đám mây, trả về Markdown. |
scrape_html |
Tương tự, trả về HTML đã được render hoàn chỉnh. |
scrape_screenshot |
Chụp ảnh màn hình chất lượng cao của bất kỳ trang nào. |
browser_create |
Cấp phát (hoặc tái sử dụng) một phiên trình duyệt đám mây. |
browser_goto |
Điều hướng phiên đến một URL. |
browser_click / browser_type / browser_press_key |
Điều khiển các phần tử trang tương tác. |
browser_scroll / browser_scroll_to |
Kích hoạt nội dung tải lười. |
browser_get_html / browser_get_text |
Trích xuất từ trang trình duyệt đám mây hiện tại. |
browser_screenshot / browser_snapshot |
Chụp trạng thái để xem lại hoặc xử lý sau. |
browser_wait_for / browser_wait |
Chờ các bộ chọn hoặc khoảng thời gian cố định. |
browser_close |
Giải phóng phiên. |
Hai phương thức vận chuyển được hỗ trợ. Stdio (npx -y scrapeless-mcp-server) là mặc định đúng cho một workstation chạy ZeroClaw cục bộ; HTTP có thể stream (https://api.scrapeless.com/mcp) là mặc định đúng khi đại lý chạy trên một máy chủ từ xa và nhà điều hành muốn máy chủ MCP được lưu trữ bởi Scrapeless hơn là khởi tạo cho mỗi lần gọi.
Kỹ năng OpenClaw Scrapeless
Các kỹ năng là các tệp SKILL.md với một runtime Python nhỏ bao bọc một API Scrapeless cụ thể. Cả hai đều được cung cấp trên tổ chức GitHub chính thức của Scrapeless:
| Kỹ năng | Điều vô nghĩa mà nó dạy cho đại lý |
|---|---|
webunlocker-skill |
Điều khiển API cạo toàn cầu của Scrapeless — lấy HTML / Plaintext / Markdown / ảnh chụp màn hình / nội dung có cấu trúc với giải quyết CAPTCHA tự động (reCAPTCHA, Cloudflare Turnstile, Cloudflare Challenge), render JS, egress proxy dân cư với --country, thử lại, và hỗ trợ POST + tiêu đề tùy chỉnh. |
llm-chat-scraper-skill |
Thu thập phản hồi trò chuyện có cấu trúc từ ChatGPT, Gemini, Perplexity, và Grok — hữu ích cho giám sát tìm kiếm AI và các luồng đo GEO. |
ZeroClaw kế thừa định dạng kỹ năng OpenClaw. Các kỹ năng được sao chép vào ~/.zeroclaw/workspace/skills/, được liệt kê bởi zeroclaw skills list, và trở nên khả dụng cho đại lý trong phiên zeroclaw agent tiếp theo.
Những Gì Bạn Có Thể Làm Với Nó
- Đại lý giám sát hàng ngày. Lên lịch một SOP ZeroClaw chạy mỗi sáng:
google_searchcho các từ khóa được theo dõi,scrape_markdownba kết quả hàng đầu, tóm tắt, phân phối qua bộ chuyển đổi kênh Discord. - Theo dõi khả năng hiển thị tìm kiếm AI. Với kỹ năng LLM Chat Scraper, lấy phản hồi từ ChatGPT, Gemini, Perplexity và Grok cho các prompt liên quan đến thương hiệu theo chu kỳ; theo dõi sự hiện diện và cảm xúc theo thời gian.
- Tạo khách hàng tiềm năng từ danh bạ công khai. Điều khiển trình duyệt đám mây qua một danh bạ công khai phân trang, loại bỏ trùng lặp theo miền, đưa các bản ghi vào bộ nhớ của đại lý.
- Điền biểu mẫu xác thực với sự can thiệp của con người. Điều khiển một biểu mẫu đăng ký nhà cung cấp hoặc đơn xin việc đến màn hình xem xét cuối cùng, chụp màn hình cả trang, dừng trước khi gửi để một người có thể phê duyệt.
- Giá cả của đối thủ theo địa lý. Phân bổ phiên trong một quốc gia cụ thể, tạo trang giá địa phương, so sánh với ảnh chụp trước đó, thông báo một kênh khi đạt ngưỡng.
- RAG với dữ liệu nhà xuất bản trực tiếp. Hiển thị trang của nhà xuất bản để lấy văn bản sạch qua
scrape_markdown, nhúng vào bộ nhớ SQLite + nhúng của ZeroClaw, truy xuất cho các lượt sau. - Vượt qua Cloudflare cho các mục tiêu nghiên cứu vô hại. Kỹ năng Web Unlocker xử lý các trang Turnstile và Challenge tự động; đại lý chỉ thấy một tải trọng Markdown sạch.
Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn enquanto nghiêm ngặt tuân thủ các luật, quy định, và chính sách bảo mật của website. Nội dung trong bài viết này chỉ nhằm mục đích minh họa.
Tại Sao Chọn Scrapeless
Scrapeless là một trình duyệt đám mây chống phát hiện cộng với API Scraping Đa năng cộng với API SERP cộng với LLM Chat Scraper, tất cả thông qua một khóa API. Đối với ZeroClaw cụ thể, nó cung cấp:
- Một máy chủ MCP bản địa — không cần cài đặt SDK, không cần mã bộ chuyển đổi. Khối MCP trong
~/.zeroclaw/config.tomllà toàn bộ tích hợp. - Kết xuất JavaScript trên đám mây nên các SPAs, nguồn cấp dữ liệu cuộn vô hạn và các bảng đã tải lười biếng là mục tiêu hạng nhất cho các công cụ
browser_*vàscrape_markdown. - Proxy dân cư tại 195+ quốc gia nên các truy vấn theo địa lý trả về các danh sách mà người dùng địa phương sẽ thấy.
- Nhận diện ngăn chặn trên mỗi phiên — UA, múi giờ, ngôn ngữ, độ phân giải màn hình, WebGL, canvas được ngẫu nhiên hóa theo phiên.
- Giải quyết CAPTCHA tự động cho reCAPTCHA, Cloudflare Turnstile và Cloudflare Challenge thông qua bề mặt Web Unlocker.
- Một bề mặt quản lý duy nhất — một khóa API, một bảng điều khiển, tín dụng thời gian chạy miễn phí trong kế hoạch tài khoản mới.
Nhận khóa API trong kế hoạch miễn phí tại app.scrapeless.com. Bề mặt công cụ MCP đầy đủ được ghi chép tại github.com/scrapeless-ai/scrapeless-mcp-server; bề mặt API tại docs.scrapeless.com.
Điều Kiện Tiên Quyết
- Một máy chủ giống như UNIX. Linux, macOS, hoặc WSL2 trên Windows. ZeroClaw phát hành các bản xây dựng Windows, nhưng script cài đặt và script kỹ năng giả định một shell POSIX — con đường mượt mà nhất là Linux / macOS / WSL2.
- Node.js 18 hoặc mới hơn cho giao thức MCP stdio (
npx -y scrapeless-mcp-server). - Python 3.10 hoặc mới hơn cho các kỹ năng OpenClaw (chúng được cung cấp dưới dạng script Python trong
scripts/). - Công cụ Rust nếu cài đặt từ mã nguồn; đường dẫn nhị phân được dựng sẵn không cần gì thêm.
- Một tài khoản Scrapeless và khóa API — đăng ký tại app.scrapeless.com và sao chép khóa từ Cài đặt → Quản lý Khóa API.
- Một khóa nhà cung cấp LLM — Anthropic, OpenAI, Ollama, hoặc bất kỳ điểm cuối tương thích OpenAI nào. Wizard hướng dẫn của ZeroClaw sẽ liên kết nó vào.
gitđể nhân bản các kho kỹ năng.jqlà tùy chọn — hữu ích khi ống đầu ra CLI, không bắt buộc cho con đường MCP.
Cài Đặt ZeroClaw
Toàn bộ thiết lập có hai bước phụ.
1. Chạy trình cài đặt
bash
curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/master/install.sh | bash
Trình cài đặt hỏi xem có muốn tải về một nhị phân đã dựng sẵn (~giây) hoặc xây dựng từ mã nguồn (chậm hơn, có thể tùy chỉnh). Cả hai đều kết thúc theo cách tương tự — zeroclaw onboard sẽ tự động khởi động. Để bỏ qua wizard ở cuối, truyền --skip-onboard và chạy zeroclaw onboard sau.
Xác minh rằng nhị phân có trên đường dẫn:
bash
zeroclaw --version
Đầu ra nên giống như zeroclaw 0.7.5 hoặc mới hơn.
2. Hoàn tất wizard hướng dẫn
bash
zeroclaw onboard
Wizard sẽ hướng dẫn qua lựa chọn nhà cung cấp, kết nối kênh, chế độ tự động và cá nhân hóa. Đối với tích hợp này, hai cài đặt quan trọng:
- Nhà cung cấp — chọn nhà cung cấp LLM nào đã được cấu hình (OpenAI, Anthropic, Ollama, một cổng tương thích OpenAI). Dán khóa API khi được yêu cầu.
- Tự động —
supervisedlà mặc định an toàn; tác nhân sẽ nhắc trước khi gọi các công cụ có rủi ro trung bình. Các công cụ MCP được tính là rủi ro trung bình theo mặc định. Đối với một hộp phát triển nơi việc nhắc nhở tạo ra ma sát, wizard cũng cung cấp chế độyolo, mà người vận hành chỉ nên bật trên máy đáng tin cậy.
Xác nhận rằng runtime đã hoạt động bằng cách bắt đầu một cuộc trò chuyện:
bash
zeroclaw agent
Một "Hey!" nên trả về một kết quả hoàn thành bình thường. Nếu có, runtime đang khỏe mạnh và bước tiếp theo là kết nối với server MCP.
Kết nối ZeroClaw với Server MCP Scrapeless
1. Kiểm tra server MCP ngoài ZeroClaw
Trước khi thêm khối MCP vào config.toml, xác nhận rằng server có thể khởi động độc lập. ZeroClaw lazy-load các server MCP khi tác nhân khởi động, vì vậy một cấu hình bị hỏng chỉ xuất hiện lần đầu tiên tác nhân chạy — tốt hơn là bắt lỗi ngay bây giờ:
bash
SCRAPELESS_KEY="<KEY_SCRAPELESS_CỦA_BẠN>" npx -y scrapeless-mcp-server
Trong lần chạy đầu tiên, npx sẽ tải scrapeless-mcp-server từ registry và server khởi động qua stdio. Quá trình vẫn liên kết; nhấn Ctrl-C để giải phóng. Nếu nó in một banner khởi động và đang chờ các yêu cầu MCP, thì thông tin xác thực và gói đều hoạt động.
Lấy khóa API của bạn trên gói miễn phí: app.scrapeless.com
2. Thêm khối MCP vào ~/.zeroclaw/config.toml
ZeroClaw đọc cấu hình server MCP từ một khối [mcp] trong cấu hình toàn cục. Thêm (hoặc hợp nhất) những nội dung sau:
toml
# ~/.zeroclaw/config.toml
[mcp]
enabled = true
deferred_loading = true
servers = [
{ name = "scrapeless", command = "npx", transport = "stdio", args = ["-y", "scrapeless-mcp-server"], env = { SCRAPELESS_KEY = "<KEY_SCRAPELESS_CỦA_BẠN>" }, headers = {} }
]
Ghi chú:
-
enabled = truekích hoạt hệ thống con MCP. Các phiên bản ZeroClaw gần đây mặc định là tắt. -
deferred_loading = truegiữ cho quá trình khởi động daemon nhanh chóng; ZeroClaw chỉ tạo ranpxkhi tác nhân thật sự bắt đầu một phiên. -
env.SCRAPELESS_KEYlà bề mặt xác thực — khóa giống như đã sử dụng trong bước kiểm tra khói ở bước 1. -
Đối với giao thức HTTP streamable-hosted thay vì stdio, thay thế mục tiêu bằng:
toml{ name = "scrapeless", transport = "http", url = "https://api.scrapeless.com/mcp", headers = { "x-api-token" = "<KEY_SCRAPELESS_CỦA_BẠN>" } }Stack khách hàng MCP của ZeroClaw hỗ trợ ba giá trị giao thức —
stdio,http, vàsse— với sự xác thực yêu cầucommand/argscho stdio vàurl/headerscho các giao thức từ xa (theo vấn đề ZeroClaw #1380). Giao thức HTTP là mặc định đúng khi ZeroClaw chạy trên một máy chủ từ xa (VPS hoặc container) và người vận hành không muốnnpxchạy ở đó.
3. Xác nhận kết nối từ bên trong ZeroClaw
Khởi động lại phiên tác nhân để nó nhận cấu hình mới và lazy-load server MCP:
bash
zeroclaw agent
Trong một cuộc trò chuyện mới, hỏi:
Bạn có quyền truy cập vào những công cụ MCP Scrapeless nào?
Tác nhân nên liệt kê 20 công cụ đã đề cập trước đó — google_search, google_trends, tập hợp browser_*, scrape_html, scrape_markdown, scrape_screenshot. Nếu câu trả lời là không có công cụ nào, nguyên nhân phổ biến nhất là enabled = false trong [mcp]; nguyên nhân phổ biến thứ hai là sai chính tả trong SCRAPELESS_KEY.
Cài đặt Kỹ năng OpenClaw Scrapeless
Server MCP là các công cụ. Các kỹ năng là sổ tay hành động. Cả hai kỹ năng Scrapeless đều hoạt động với ZeroClaw vì runtime hỗ trợ định dạng kỹ năng OpenClaw trực tiếp.
1. Cho phép các script kỹ năng trong ~/.zeroclaw/config.toml
Cả hai kỹ năng Scrapeless đều cung cấp các thư mục scripts/ mà tác nhân thực thi. Đặt allow_scripts = true trong phần [skills]:
toml
# ~/.zeroclaw/config.toml
[skills]
allow_scripts = true
allow_scripts được tắt theo mặc định vì lý do an toàn. Bật nó cho phép ZeroClaw quyền chạy các script được gói theo kỹ năng dưới chính sách tự động đã được thực thi; việc gọi script có rủi ro trung bình vẫn sẽ yêu cầu phê duyệt dưới chế độ supervised.
2. Nhân bản các kho kỹ năng
bash
mkdir -p ~/.zeroclaw/workspace/skills
git clone https://github.com/scrapeless-ai/webunlocker-skill ~/.zeroclaw/workspace/skills/webunlocker-skill
git clone https://github.com/scrapeless-ai/llm-chat-scraper-skill ~/.zeroclaw/workspace/skills/llm-chat-scraper-skill
3. Cài đặt các phụ thuộc Python và token API
Kỹ năng Web Unlocker cung cấp một requirements.txt:
bash
cd ~/.zeroclaw/workspace/skills/webunlocker-skill
pip install -r requirements.txt
cp .env.example .env
# Sau đó chỉnh sửa .env và đặt X_API_TOKEN=<KEY_SCRAPELESS_CỦA_BẠN>
Lặp lại cho kỹ năng LLM Chat Scraper nếu nó trong phạm vi cho tác nhân.
4. Xác nhận rằng các kỹ năng có thể nhìn thấy từ ZeroClaw
bash
zeroclaw skills list
Kết quả đầu ra nên bao gồm webunlocker-skill và llm-chat-scraper-skill. Nếu chúng thiếu, nguyên nhân phổ biến nhất là bản sao đã được lưu vào ~/.zeroclaw/skills/ thay vì ~/.zeroclaw/workspace/skills/ — đường dẫn sau là đường dẫn mà runtime theo dõi.
ZeroClaw + Scrapeless trong Hành Động
Một ví dụ thực tế: một báo cáo cạnh tranh hàng ngày về một chủ đề mà người điều hành theo dõi. Đại lý xác định các nguồn tươi mới, trích xuất nội dung và tạo ra một bản tóm tắt có cấu trúc, được gửi đến bất kỳ kênh nào mà đại lý đã liên kết.
Trong zeroclaw agent, dán:
Hãy xây dựng cho tôi một báo cáo cạnh tranh về "khung AI đại lý" trong 7 ngày qua.
1. Sử dụng công cụ MCP Scrapeless `google_search` để tìm 5 tin tức / blog
liên quan nhất được xuất bản trong tuần này. Sử dụng gl=us, hl=en.
2. Đối với mỗi URL kết quả, sử dụng `scrape_markdown` để lấy nội dung bài viết. Loại bỏ
các yếu tố điều hướng và quảng cáo.
3. Sử dụng `google_trends` để lấy đường cong quan tâm trong 7 ngày cho truy vấn
"khung AI đại lý" để tôi có tín hiệu cầu cùng với tín hiệu cung.
4. Tạo một báo cáo Markdown có cấu trúc với:
- Top 3 chủ đề trong 5 bài viết, mỗi chủ đề có một tóm tắt một câu và
URL nguồn.
- Hướng xu hướng trong 7 ngày (tăng / phẳng / giảm) và ngày cao điểm.
- Một phần "điều gì đã thay đổi trong tuần này" — bất kỳ điều gì mới so với báo cáo của tuần trước.
Nếu một trang mục tiêu chặn trình duyệt đám mây, hãy quay lại `browser_create` +
`browser_goto` + `browser_get_text` chỉ cho URL đó. Không thay thế nội dung tổng hợp;
nếu một nguồn không thể lấy được, hãy liệt kê nó dưới "các nguồn chưa lấy được".
Kế hoạch của đại lý, bằng tiếng Anh giản dị:
- Gọi
google_search(q="khung AI đại lý", gl="us", hl="en")và chọn năm kết quả mới nhất trông giống như các nguồn chính (bỏ qua các trang tổng hợp). - Lặp lại các URL qua
scrape_markdownvà giữ lại văn bản cơ thể đã được làm sạch trong bộ nhớ làm việc. - Gọi
google_trends(q="khung AI đại lý", date="now 7-d")cho đường cong quan tâm. - Tóm tắt thành một báo cáo Markdown.
- Đối với bất kỳ URL nào trả về một trang chặn chống bot thông qua
scrape_markdown, hãy thử lại qua chuỗibrowser_create→browser_goto→browser_get_text, điều này khởi động một phiên trình duyệt đám mây và chờ đợi trước khi trích xuất.
Trước mỗi lần gọi công cụ, chế độ tự chủ supervised của ZeroClaw yêu cầu phê duyệt — Y cho phê duyệt một lần, A để nhớ quyền cho các lần gọi công cụ trong cùng một phiên.
Để gửi lời nhắc mà không vào trò chuyện tương tác:
bash
zeroclaw agent --message "Hãy xây dựng cho tôi một báo cáo cạnh tranh về khung AI đại lý trong 7 ngày qua..."
Để biến điều này thành một quy trình theo lịch thay vì một lời nhắc tạm thời, hãy đăng ký một SOP theo lịch cron và liên kết nó với bất kỳ bộ điều hợp kênh nào mà đại lý nên gửi báo cáo qua (Discord, Telegram, email). Các công cụ MCP và kỹ năng vẫn giữ nguyên; chỉ có kích hoạt thay đổi.
Những Gì Bạn Nhận Được
Báo cáo quay lại dưới dạng một tải trọng Markdown theo các nội dung sau — được lấy từ một lần chạy thực tế của lời nhắc trên đối với năm kết quả SERP trực tiếp cho "khung AI đại lý 2026":
markdown
# Khung AI Đại Lý — Báo Cáo Hàng Tuần (tuần từ 12-Tháng 5-2026)
## Chủ đề (7 ngày qua)
1. **LangGraph là tiêu chuẩn sản xuất đồng thuận.** Tất cả ba
so sánh sâu được xuất bản trong tuần này (Towards AI, GuruSup, Alice Labs) xếp
LangGraph #1 cho khối lượng sản xuất. Các lý do được trích dẫn hội tụ:
thực thi đồ thị xác định, các điểm kiểm tra con người trong vòng,
và khả năng quan sát hàng đầu thông qua LangSmith.
Nguồn: https://pub.towardsai.net/top-ai-agent-frameworks-in-2026-a-production-ready-comparison-7ba5e39ad56d
2. **MCP đang nổi lên như tiêu chuẩn tích hợp công cụ giữa các khung.**
Giao thức Ngữ cảnh Mô hình của Anthropic — hiện được quản lý bởi Quỹ Linux
với OpenAI, Google, Microsoft, AWS và Salesforce trong danh sách người ủng hộ —
được tham khảo như tiêu chuẩn đại lý-tới-công cụ trong hai trong ba so sánh.
Nguồn: https://gurusup.com/blog/best-multi-agent-frameworks-2026
3. **Phân tách AutoGen / AG2 là phát triển chính trong 2025–2026.** Microsoft
đã viết lại AutoGen thành v0.4+ với API mới; cộng đồng tiếp tục dòng v0.2
như AG2 (ag2.ai). Cả Alice Labs và GuruSup đều báo cáo điều này như một "khoảnh khắc
lựa chọn có chủ ý" cho các nhóm đánh giá các khung tranh luận đa tác nhân.
Nguồn: https://alicelabs.ai/en/insights/best-ai-agent-frameworks-2026
## Tín hiệu cầu
- Xu hướng 7 ngày: không khả dụng (google_trends trả về một lỗi tạm thời
ở phía trên cho lần chạy này — hãy thử lại vào lịch tiếp theo)
## Điều gì đã thay đổi trong tuần này
- Alice Labs đã thêm Claude Agent SDK như một người mới gia nhập ở vị trí #2, đẩy CrewAI
xuống vị trí #3 — xếp hạng đầu tiên mà chúng tôi thấy nâng cao SDK chính thức của Anthropic lên trên
các đại lý đa tác nhân.
- Trạng thái nhánh AutoGen / AG2 được đề cập trong 2 trong 3 bài viết, tăng từ 0 tuần trước.
## Các nguồn chưa lấy được
- (không — alicelabs.ai SPA yêu cầu đường dẫn dự phòng browser_*; đã phục hồi)
Cấu trúc theo đúng yêu cầu; các giá trị là những gì chuỗi công cụ đã được xác thực thực sự trả về vào ngày mà bản tóm tắt diễn ra. Một vài quan sát chân thực dựa trên lần chạy trực tiếp:
scrape_markdownlàm sạch hầu hết các trang nhà xuất bản một cách tốt. Towards AI và GuruSup đã trả về các thân Markdown sạch trong lần thử đầu tiên. Các SPA được render bằng JS nặng (alicelabs.ai là một SPA Webflow / Vite trong lần chạy này) đã trả về khung HTML được render thay vì — tác nhân đã phục hồi thông qua chuỗibrowser_create→browser_goto→browser_get_text, điều này đã trả về một snapshot trang hoàn toàn có cấu trúc bao gồm danh sách đã xếp hạng, những điểm chính, FAQ, và thời gian cập nhật tháng 5-2026.google_trendslà sự quan tâm, không phải khối lượng — và đôi khi là tạm thời. Trong lần xác thực, cuộc gọi Trends phía trên đã trả về lỗiload failed; yêu cầu này xử lý điều này bằng cách báo cáo sự thiếu hụt thay vì thay thế dữ liệu nhân tạo. Tư thế thử lại đúng là lần chạy đã lên lịch tiếp theo, không phải là thử lại nóng bên trong cùng một lượt tác nhân.- Mức độ tươi mới theo từng nguồn thay đổi. Một số nhà xuất bản cập nhật thời gian khi họ cập nhật bài viết; nếu "tươi mới" thực sự quan trọng, hãy kiểm tra ngày xuất bản trong nội dung bài viết, không phải đoạn trích SERP. (Trang Alice Labs trong lần chạy này cho thấy cả ngày xuất bản tháng 4-2026 và ngày cập nhật tháng 5-2026 trong nội dung.)
- Các bố cục chống bot và khung SPA là bình thường, không phải ngoại lệ. Dự trù cho việc
browser_*dự phòng trong bất kỳ yêu cầu nào liên quan đến các trang thương mại quy mô lớn; lần chạy xác thực đã gặp một trong ba URL và quá trình phục hồi không có sự cố gì.
Kết luận: một tác nhân đọc web trực tiếp
Tích hợp ZeroClaw + Scrapeless giảm xuống còn bốn bước mà người vận hành thực hiện một lần: cài đặt ZeroClaw, đăng ký máy chủ Scrapeless MCP trong ~/.zeroclaw/config.toml, thả các kỹ năng OpenClaw vào ~/.zeroclaw/workspace/skills/, và xác minh với zeroclaw skills list và một yêu cầu danh sách công cụ trong zeroclaw agent. Sau đó, mỗi lượt tác nhân chạm vào web — nghiên cứu, giám sát, tạo khách hàng tiềm năng, hấp thụ RAG, theo dõi sự hiển thị tìm kiếm AI — đều đi qua trình duyệt đám mây, các proxy dân cư và API SERP đằng sau một khóa API.
Đối với cùng một nguyên tắc Scrapeless trong các khách hàng khác, hướng dẫn máy chủ MCP bao gồm Claude Desktop / Cursor / Codex CLI, bài viết tích hợp Hermes bao gồm CDP trực tiếp, và bài viết tích hợp LangChain bao gồm các tác nhân Python. Mô hình trên tất cả chúng là giống nhau: cố định một khu vực dân cư, giữ phiên làm ấm qua các dòng nhiều bước, coi bố cục chống bot như một trường hợp thử lại thay vì một ngoại lệ, và để tác nhân tạo thành google_search → scrape_markdown → browser_* thành bất cứ điều gì mà yêu cầu thực sự hỏi.
Sẵn sàng Xây Dựng Đường Dẫn Dữ Liệu Powered by AI?
Tham gia cộng đồng của chúng tôi để nhận kế hoạch miễn phí và kết nối với các nhà phát triển xây dựng các đường dẫn tác nhân địa phương trên Scrapeless: Discord · Telegram.
Đăng ký tại app.scrapeless.com để nhận thời gian chạy MCP miễn phí và điều chỉnh các mẫu ở trên cho bất kỳ quy trình nào mà tác nhân ZeroClaw đã chạy.
FAQ
Q1. Máy chủ MCP của Scrapeless có hoạt động trên Windows, hay chỉ Linux / macOS?
Máy chủ MCP là một gói Node.js — nó chạy ở bất kỳ đâu Node 18+ chạy, bao gồm cả Windows. Trình cài đặt của ZeroClaw giả định một shell POSIX, vì vậy con đường mượt mà nhất trên Windows là WSL2. Biến thể vận chuyển HTTP (hướng ZeroClaw đến https://api.scrapeless.com/mcp) loại bỏ hoàn toàn sự phụ thuộc vào npx cục bộ và là lựa chọn dễ nhất cho các triển khai ZeroClaw được lưu trữ.
Q2. Stdio hay HTTP streamable — đâu là vận chuyển mặc định đúng?
Đối với một workstation chạy ZeroClaw cục bộ, stdio. Vòng đời rất đơn giản: ZeroClaw khởi động npx -y scrapeless-mcp-server khi tác nhân bắt đầu, tắt nó khi tác nhân dừng. Đối với ZeroClaw trên VPS hoặc trong một container, HTTP. Điểm cuối do Scrapeless lưu trữ loại bỏ sự cần thiết phải gói npx và Node vào hình ảnh thời gian chạy.
Q3. Việc thu thập dữ liệu từ web công khai có hợp pháp không?
Thông thường có, khi dữ liệu có thể nhìn thấy công khai và quy trình tôn trọng các điều khoản dịch vụ của từng trang và các quyền hạn áp dụng. Tư thế pháp lý thay đổi theo từng quốc gia, theo từng trang và theo từng trường hợp sử dụng (nghiên cứu, bán lại thương mại, dữ liệu đào tạo). Kiểm tra Điều khoản dịch vụ của trang mục tiêu trước khi mở rộng quy trình chống lại nó, và tư vấn luật sư cho các trường hợp sử dụng quy mô lớn hoặc theo quy định.
Q4. Máy chủ MCP và các kỹ năng OpenClaw có chồng chéo không?
Chúng bổ sung cho nhau. Máy chủ MCP cung cấp cho tác nhân công cụ — các bề mặt cụ thể, có thể gọi (google_search, scrape_markdown, browser_*). Các kỹ năng cung cấp cho tác nhân kiến thức — cách mà API Scraping Universal Scrapeleless hoạt động, khi nào nên quay lại việc kết xuất JS, loại phản hồi nào để yêu cầu, làm thế nào để ghép nối việc giải CAPTCHA với việc chọn quốc gia. Khi được cài đặt cùng nhau, tác nhân có cả hai.
Q5. Điều gì xảy ra khi một trang mục tiêu trả về một trang chặn bot?
Đối với scrape_markdown khi đối mặt với hầu hết các trang, trình duyệt đám mây giải quyết thách thức một cách minh bạch. Đối với những trang vẫn trả về một trang chặn, phương pháp quay lại tiêu chuẩn là browser_create → browser_goto → browser_wait_for (một bộ chọn đã biết sau thách thức) → browser_get_text. Dự trù cho phương pháp quay lại này trong bất kỳ yêu cầu nào chạm đến các trang thương mại; ví dụ yêu cầu ở trên cho thấy hình dạng.
Q6. Chế độ tự chủ của ZeroClaw tương tác như thế nào với các cuộc gọi công cụ MCP?
Dưới chế độ supervised (mặc định), tác nhân yêu cầu trước khi gọi mỗi công cụ MCP lần đầu tiên. Người vận hành có thể cấp phê duyệt một lần (Y) hoặc phê duyệt nhớ-công cụ-này (A). Dưới chế độ yolo, tác nhân gọi công cụ mà không cần yêu cầu; chế độ này chỉ phù hợp trên một hộp phát triển đáng tin cậy.
Q7. Tác nhân có thể kết hợp các cuộc gọi Scrapeless thành các luồng nhiều bước trong một lượt không?
Có — đó là điểm thiết kế. Một lượt tác nhân đơn lẻ thường liên kết google_search (định vị), scrape_markdown (trích xuất từ URL chuẩn), và browser_* (quay lại cho các trang tương tác hoặc được bảo vệ chống bot). ZeroClaw truyền các cuộc gọi công cụ trung gian vào cùng một ngữ cảnh cuộc trò chuyện.
Q8. Khóa API Scrapeless nằm ở đâu?
Đối với đường đi MCP, ở env.SCRAPELESS_KEY bên trong ~/.zeroclaw/config.toml (hoặc trong tiêu đề x-api-token có thể stream được của HTTP). Đối với đường đi kỹ năng, ở trong tệp .env bên trong mỗi thư mục kỹ năng dưới dạng X_API_TOKEN. Hai đường đi là độc lập; xoay vòng khóa có nghĩa là cập nhật cả hai vị trí.
Q9. Một SOP của ZeroClaw có thể chạy cùng một yêu cầu theo lịch trình không?
Có. Đăng ký một SOP với bộ kích hoạt cron mà chạy cùng một yêu cầu mà người vận hành sẽ dán vào zeroclaw agent --message "...". Liên kết SOP với một bộ điều hợp kênh (Discord, Telegram, email) và thông tin được gửi tự động. Các SOP ở chế độ supervised vẫn yêu cầu phê duyệt cho các cuộc gọi công cụ có rủi ro trung bình; cho các lần chạy theo lịch không giám sát, SOP cần được cấu hình dưới một chế độ tự chủ thoải mái hơn hoặc với quyền công cụ đã được cấp trước.
Q10. Còn các sản phẩm khác của Scrapeless thì sao — Trình duyệt Scraping, API Scraping Universal, API SERP?
Máy chủ MCP gói ghém các bộ công cụ trình duyệt đám mây, SERP và các nguyên tắc scrape phổ biến nhất vào một bề mặt MCP. Đối với các quy trình công việc cần trực tiếp toàn bộ bộ nguyên tắc Trình duyệt Scraping (CDP, dấu vân tay tùy chỉnh, duy trì phiên ở độ granularity session_ttl), hãy kết nối đầu cuối CDP Trình duyệt Scraping vào công cụ browser tích hợp sẵn của ZeroClaw. Hai cách tiếp cận này có thể kết hợp với nhau; chúng không mâu thuẫn.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.



