Cách thêm tìm kiếm web vào mã Qwen: Tích hợp MCP không rác cho các tác nhân đầu cuối

Ava Wilson

Expert in Web Scraping Technologies

25-May-2026

Những điểm chính:

Qwen Code không có tìm kiếm web tích hợp sẵn - MCP là cách nó nhìn thấy web. Công cụ web_search tích hợp đã bị xóa trong một phiên bản sớm; tài liệu chính thức rõ ràng rằng tìm kiếm web được cung cấp bằng cách kết nối với máy chủ MCP. Kết nối đó với Scrapeless và tác nhân terminal sẽ có tìm kiếm Google trực tiếp, hiển thị trang và một trình duyệt đám mây đầy đủ chỉ trong một bước.
Một khối trong ~/.qwen/settings.json kết nối tất cả. Thêm một mục scrapeless vào đối tượng mcpServers và tác nhân sẽ có một trình phân tích SERP Google, một trình phân tích Xu hướng, các công cụ HTML/Markdown/Screenshot, và 16 công cụ tự động hóa trình duyệt - không cần mã SDK, không cần dịch vụ lưu trữ.
Tác nhân tìm kiếm, hiển thị và điều khiển trình duyệt từ các lệnh nhắc đơn giản. Hỏi bằng ngôn ngữ tự nhiên để tìm kiếm Google, đọc một trang nặng JavaScript dưới dạng markdown sạch, hoặc nhấp qua một quy trình nhiều bước, và Qwen Code sẽ soạn ra các lệnh công cụ chính xác từng bước một thay vì bị giới hạn ở kiến thức ngắt quãng đào tạo và tệp địa phương.
Proxy dân cư và chống phát hiện được xử lý trên đám mây. Mỗi yêu cầu đều đi qua trình duyệt đám mây chống phát hiện Scrapeless với các proxy dân cư ở hơn 195 quốc gia, do đó tác nhân nhận được một phản hồi đã được hiển thị, sử dụng được trên các trang thương mại mà không cần cài đặt proxy hay dấu vân tay nào trên máy của bạn.
21 công cụ trên SERP, scraping không trạng thái và tự động hóa trình duyệt. Máy chủ Scrapeless MCP cung cấp google_search, google_trends, scrape_html/scrape_markdown/scrape_screenshot, cộng với 16 công cụ browser_* - một không gian tên mà người lập kế hoạch của tác nhân sử dụng mỗi lần.
Giao thức stdio hoặc truyền tải HTTP. Khởi chạy máy chủ cục bộ với npx, hoặc trỏ cấu hình đó vào điểm cuối HTTP có thể phát cho các container phát triển từ xa và CI runners.
Miễn phí để bắt đầu. Tài khoản Scrapeless mới bao gồm thời gian chạy Trình duyệt Scraping miễn phí - đăng ký tại Scrapeless.

Giới thiệu: một đại lý lập trình terminal có thể cuối cùng đọc web trực tiếp

Qwen Code là một đại lý AI mã nguồn mở sống trong terminal của bạn, được tối ưu hóa cho loạt mô hình Qwen. Nó đọc các cơ sở mã lớn, chỉnh sửa tệp, chạy lệnh và tự động hóa các phần nhàm chán của một dự án - tất cả mà không phải rời khỏi shell. Điều mà nó không thể làm một mình là thấy web trực tiếp. Kiến thức của nó dừng lại ở điểm cắt đào tạo của mô hình và các tệp trên đĩa.

Khoảng trống đó là rất rõ ràng trong Qwen Code. Công cụ tích hợp web_search đã bị xóa trong một phiên bản sớm, và tài liệu chính thức nói rõ rằng "tìm kiếm web được cung cấp bằng cách kết nối với các máy chủ MCP bên ngoài" thay vì một công cụ tích hợp sẵn. Nói cách khác, truy cập web thời gian thực trong Qwen Code không phải là một suy nghĩ sau cùng mà bạn gắn vào - đó là điểm mở rộng dự kiến. Cho đến khi bạn kết nối một cái, tác nhân không thể kéo một SERP hiện tại, đọc trang giá của một đối thủ, kiểm tra nhật ký thay đổi mới nhất, hoặc hiển thị một ứng dụng chỉ có JavaScript.

Bài viết này thu hẹp khoảng trống đó bằng cách kết nối máy chủ Scrapeless MCP với Qwen Code. Một khối trong ~/.qwen/settings.json cung cấp cho tác nhân tìm kiếm Google, hiển thị JavaScript, và một trình duyệt đám mây chống phát hiện hoàn chỉnh, tất cả có thể truy cập qua cùng một lệnh nhắc ngôn ngữ tự nhiên mà nó đã sử dụng cho mã. Để biết cùng bề mặt Scrapeless thông qua các khách hàng MCP khác, hãy xem hướng dẫn Google Antigravity và tích hợp Pi Agent.

Những gì bạn có thể làm với nó

Nghiên cứu SERP trực tiếp trong terminal. Yêu cầu tác nhân chạy google_search cho một truy vấn và trả lại các kết quả hàng đầu dưới dạng JSON, để nghiên cứu diễn ra trong shell thay vì một tab trình duyệt riêng.
Ảnh chụp đốị thủ và giá. Đưa một URL vào lệnh nhắc và yêu cầu tác nhân hiển thị trang và trích xuất tên kế hoạch, giá cả và tính năng vào một bản ghi có cấu trúc mà bạn có thể đặt bên cạnh mã của mình.
Tìm kiếm tài liệu và nhật ký thay đổi hỗ trợ mã. Yêu cầu tác nhân lấy tài liệu hiện tại của một thư viện hoặc ghi chú phát hành dưới dạng markdown sạch và viết dựa vào văn bản đã hiển thị thay vì một bộ nhớ cũ về API.
Kiểm tra thị trường và xu hướng. Sử dụng google_trends để lấy các tín hiệu quan tâm cho một chủ đề ở một khu vực mục tiêu, sau đó sử dụng chúng để phát triển nội dung, kế hoạch, hoặc ý tưởng thử nghiệm với bằng chứng hiện tại.
Trích xuất trang JavaScript vào một bản ghi kiểu. Trỏ tác nhân đến một ứng dụng một trang; trình duyệt đám mây sẽ làm đầy nó và tác nhân sẽ phân tích kết quả thành một đối tượng kiểu cho script mà bạn đang xây dựng.
Luồng trình duyệt nhiều bước. Nối kết browser_goto, browser_click, browser_type và browser_scroll để tác nhân điều khiển phân trang, mở rộng bảng và từng bước qua wizard trước khi trích xuất.
Chụp ảnh màn hình để xem lại. Sử dụng scrape_screenshot hoặc browser_screenshot để lấy một trang đã hiển thị dưới dạng hình ảnh mà tác nhân có thể lưu vào không gian làm việc.
Pipeline tìm kiếm sau đó đọc. Kết hợp google_search với scrape_markdown để tác nhân tìm kiếm các kết quả hàng đầu, đọc từng kết quả, và tóm tắt chúng trong một lần thực thi của terminal.

Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn trong khi tuân thủ nghiêm ngặt các luật pháp, quy định và chính sách quyền riêng tư của trang web. Nội dung trong bài này chỉ mang tính chất trình bày.

Tại sao chọn máy chủ MCP Scrapeless

Máy chủ MCP Scrapeless là một cầu nối tùy chỉnh, chống phát hiện giữa một tác nhân AI và web trực tiếp. Đối với Qwen Code, nó mang lại:

Một trình duyệt đám mây chống phát hiện với khả năng xử lý JavaScript. Các trang được nạp hoàn toàn trong Scrapeless Scraping Browser trước khi trích xuất, vì vậy các SPA, nguồn tải không giới hạn và các bảng điều khiển tải chậm trở thành mục tiêu hàng đầu cho browser_goto + browser_get_html.
Proxy dân cư tại 195+ quốc gia. Các truy vấn theo địa lý trả về danh sách mà người dùng địa phương sẽ thấy, với việc thoát proxy hoàn toàn được xử lý ở phía Scrapeless.
Một lệnh stdio qua npx, không có mã SDK. Máy chủ được khởi động như một tiến trình con từ npx -y scrapeless-mcp-server; không cần xây dựng, lưu trữ hoặc nhập vào dự án của bạn.
21 công cụ trải rộng từ SERP, trích xuất không trạng thái đến tự động hóa trình duyệt hoàn toàn. google_search và google_trends bao phủ dữ liệu SERP, scrape_html/scrape_markdown/scrape_screenshot bao phủ việc lấy trang một lần, và 16 công cụ browser_* bao phủ điều hướng có trạng thái, nhấp chuột, gõ, cuộn và chụp màn hình.
Một bổ sung cho web_fetch của Qwen Code. Qwen Code cung cấp một web_fetch đơn giản để truy xuất trang bình thường, nhưng nó không render JavaScript hoặc có chức năng chống phát hiện. Các công cụ Scrapeless lấp đầy chính xác khoảng trống đó — tìm kiếm mà tác nhân chưa từng có, cộng với sự truy cập trang đã render và proxy.

Kế hoạch miễn phí đủ để thiết lập và chạy các prompt thực; so sánh hạn mức trên trang giá khi bạn vượt quá nó. Nhận khóa API của bạn trên kế hoạch miễn phí tại Scrapeless.

Điều kiện tiên quyết

Node.js 22 hoặc mới hơn trên máy làm việc — Qwen Code yêu cầu Node 22+, và máy chủ stdio MCP được khởi động bằng npx.
Qwen Code được cài đặt và một nhà cung cấp mô hình được cấu hình. Qwen Code xác thực chống lại một backend LLM; vòng lặp tác nhân cần một mô hình hoạt động trước khi bất kỳ lệnh gọi công cụ nào chạy.
Tài khoản Scrapeless và khóa API — đăng ký trên kế hoạch miễn phí tại app.scrapeless.com và sao chép khóa từ Cài đặt → Quản lý Khóa API.
Kỹ năng cơ bản về terminal — toàn bộ thiết lập là một số lệnh cộng với một tệp JSON nhỏ.

Cài đặt

Thiết lập gồm năm bước phụ; mỗi bước có thể xác minh độc lập.

1. Cài đặt Qwen Code

Cài đặt CLI toàn cục từ npm, sau đó kiểm tra phiên bản:

bash Copy

npm install -g @qwen-code/qwen-code
qwen --version

Bạn cũng có thể chạy nó mà không cần cài đặt toàn cục thông qua npx -y @qwen-code/qwen-code@latest.

2. Kết nối một nhà cung cấp mô hình

Qwen Code giao tiếp với một backend LLM. Nó hỗ trợ chế độ tương thích với OpenAI, vì vậy bất kỳ điểm cuối nào tương thích với OpenAI đều hoạt động — thiết lập loại xác thực, khóa API, URL cơ sở và mô hình:

bash Copy

export OPENAI_API_KEY="your_provider_key_here"
export OPENAI_BASE_URL="https://your-openai-compatible-endpoint/v1"
qwen --auth-type openai -m "your-model-id"

Các giá trị tương tự có thể được truyền dưới dạng cờ --openai-api-key và --openai-base-url. Chọn một mô hình có khả năng xử lý các lệnh gọi công cụ tốt — Qwen Code được xây dựng xung quanh việc sử dụng công cụ tác nhân, vì vậy một mô hình lập trình viên thuộc dòng Qwen hiện tại là sự lựa chọn tự nhiên.

3. Thêm máy chủ MCP Scrapeless (stdio)

Qwen Code đọc các máy chủ MCP từ ~/.qwen/settings.json (phạm vi người dùng) hoặc .qwen/settings.json trong thư mục gốc của dự án. Thêm một khối scrapeless vào đối tượng mcpServers:

json Copy

{
  "mcpServers": {
    "scrapeless": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": { "SCRAPELESS_KEY": "$SCRAPELESS_KEY" },
      "timeout": 60000,
      "trust": true
    }
  }
}

Hai chi tiết quan trọng ở đây. Đầu tiên, máy chủ MCP Scrapeless đọc khóa của nó từ SCRAPELESS_KEY, không phải SCRAPELESS_API_KEY — CLI và SDK của Scrapeless sử dụng SCRAPELESS_API_KEY, nhưng máy chủ MCP là ngoại lệ được tài liệu hóa. Thứ hai, Qwen Code mở rộng $VAR và ${VAR} bên trong đối tượng env, vì vậy bạn có thể giữ khóa trong môi trường của bạn (export SCRAPELESS_KEY=...) và tham chiếu nó dưới dạng $SCRAPELESS_KEY thay vì dán giá trị cụ thể vào tệp. Mã nguồn của máy chủ này có tại github.com/scrapeless-ai/scrapeless-mcp-server.

Bạn cũng có thể thêm máy chủ từ CLI thay vì chỉnh sửa JSON bằng tay:

bash Copy

qwen mcp add --transport stdio --scope user --env SCRAPELESS_KEY=$SCRAPELESS_KEY --trust scrapeless npx -y scrapeless-mcp-server

4. Hoặc sử dụng chế độ streaming HTTP

Nếu máy chủ không thể chắc chắn khởi động npx — một container dev được lưu trữ, một không gian làm việc từ xa hoặc một sandbox CI — hãy chỉ định Qwen Code đến điểm cuối HTTP Scrapeless thay vì quy trình cục bộ. Đối với truyền tải HTTP, Qwen Code sử dụng khóa httpUrl với một đối tượng headers tùy chọn:

json Copy

{
  "mcpServers": {
    "scrapeless": {
      "httpUrl": "https://api.scrapeless.com/mcp",
      "headers": { "x-api-token": "YOUR_SCRAPELESS_KEY" }
    }
  }
}

Giá trị khóa giống nhau hoạt động trong cả hai chế độ; truyền tải HTTP sẽ truyền nó dưới dạng tiêu đề x-api-token thay vì biến môi trường SCRAPELESS_KEY. Stdio là mặc định đúng trên một trạm phát triển; truyền tải HTTP là mặc định đúng ở bất kỳ đâu một quy trình con lâu dài khó giữ cho sống.

5. Xác minh kết nối

Liệt kê các máy chủ MCP đã cấu hình:

bash Copy

qwen mcp list

Máy chủ scrapeless nên báo cáo Đã kết nối, điều này có nghĩa là Qwen Code đã khởi động quy trình stdio và hoàn thành bắt tay MCP. Từ đó, đại lý có thể liệt kê 21 công cụ của máy chủ — các công cụ dữ liệu Google (google_search, google_trends), các trợ giúp trang một lần (scrape_html, scrape_markdown, scrape_screenshot), và các nguyên thủy của trình duyệt đám mây (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close).

Cách bạn thật sự sử dụng điều này: gọi đại lý Qwen Code của bạn

Sau khi kết nối máy chủ MCP, bạn nhận dữ liệu web trực tiếp bằng cách nói chuyện với Qwen Code trong terminal — không phải bằng cách tự tay viết các cuộc gọi công cụ. Đại lý đọc danh sách công cụ mà máy chủ MCP Scrapeless công khai và chọn google_search, scrape_markdown, hoặc các công cụ browser_* khi cần, kết hợp chúng lần lượt từ lời nhắc ngôn ngữ tự nhiên. Không có JSON công cụ nào để bạn tạo trên phía mình. Qwen Code chạy các lời nhắc một cách tương tác trong một phiên, hoặc không tương tác bằng cách truyền lời nhắc như một đối số vị trí (hoặc chuyển hướng nó trên stdin) cho các lần chạy một lần và kịch bản.

Lời nhắc bạn có thể dán

Lời nhắc	Những gì đại lý làm
"Tìm kiếm kết quả Google hàng đầu cho `vector database benchmarks 2026` và trả về chúng dưới dạng JSON."	`google_search` với `q`, `hl`, `gl` → hàng kết quả đã gõ.
"Những chủ đề tìm kiếm nào đang tăng lên cho `developer tools` ở Mỹ ngay bây giờ?"	`google_trends`.
"Lấy trang tài liệu Qwen Code tại `https://qwenlm.github.io/qwen-code-docs/en/users/overview/` dưới dạng markdown sạch."	`scrape_markdown`.
"Mở `https://pricing.example.com`, đây là một ứng dụng JavaScript — render nó và trích xuất tên gói, giá cả và tính năng dưới dạng JSON."	`browser_create` → `browser_goto` → `browser_get_html` → trích xuất đã gõ.
"So sánh các trang định giá tại `https://a.example.com/pricing` và `https://b.example.com/pricing` và cho tôi biết chúng khác nhau ở đâu."	`browser_create` → `browser_goto` (A) → `browser_get_html` → `browser_goto` (B) → `browser_get_html` → so sánh.
"Chụp ảnh màn hình toàn trang của `https://example.com/landing`."	`scrape_screenshot`.
"Lấy HTML đã render của `https://example.com` để tôi có thể đọc markup."	`scrape_html`.
"Mở `https://example.com/jobs`, chờ danh sách tải, chụp lại trang, sau đó trích xuất từng tiêu đề và vị trí công việc dưới dạng JSON."	`browser_create` → `browser_goto` → `browser_wait_for` → `browser_snapshot` → trích xuất đã gõ → `browser_close`.

Ví dụ đã làm

Bạn gõ (một lần, lời nhắc được truyền qua stdin):

bash Copy

echo "Sử dụng công cụ google_search của scrapeless để tìm kiếm kết quả hàng đầu cho 'qwen code github' và trả về 3 kết quả hàng đầu dưới dạng mảng JSON của {title, link}." | qwen --approval-mode yolo --allowed-mcp-server-names scrapeless

Kế hoạch của đại lý (bằng tiếng Anh thông thường):

Gọi google_search với q: "qwen code github", hl: "en", gl: "us".
Nhận mảng hàng kết quả và đọc các trường position, title, và link.
Sắp xếp theo position và giữ lại ba hàng đầu tiên.
Ánh xạ mỗi hàng thành một đối tượng {title, link}.
Trả về mảng JSON cho terminal.

Những gì bạn nhận được trở lại (hình dạng minh họa — đại lý làm việc từ các hàng như thế này):

json Copy

[
  { "title": "Qwen Code là một tác nhân AI mã nguồn mở cho terminal, ...", "link": "https://qwen.ai/qwencode" },
  { "title": "Tổng quan về Qwen Code", "link": "https://qwenlm.github.io/qwen-code-docs/en/users/overview/" },
  { "title": "qwen-code/qwen-code-core", "link": "https://www.npmjs.com/package/@qwen-code/qwen-code-core" }
]
// Các tên trường phù hợp với hình dạng hàng google_search; các giá trị là các mẫu minh họa.

--allowed-mcp-server-names scrapeless giới hạn quá trình cho các công cụ Scrapeless, và --approval-mode yolo cho phép tác nhân thực hiện công cụ tin cậy mà không yêu cầu tương tác — thuận tiện cho các lần chạy không giao diện và kịch bản. Các công cụ dữ liệu không trạng thái trả về payload của chúng dưới dạng một thân được tiền tố bằng Response:\n\n; tác nhân gỡ bỏ tiền tố đó trước khi phân tích JSON, vì vậy bạn không bao giờ thấy nó trong câu trả lời.

Định hình các lệnh nhắc

Nói như này	Hiệu ứng
"…từ Đức" / "…kết quả tiếng Đức"	Chuyển hướng luồng ra qua `proxyCountry` và thiết lập `gl=de` trên tìm kiếm.
"…dưới dạng markdown, bỏ điều hướng và khối mã mẫu"	Chọn `scrape_markdown` để có một payload văn bản sạch thay vì HTML thô.
"…vẽ nó trước, đó là một ứng dụng một trang"	Ép buộc vị trí `browser_*` (`browser_create` → `browser_goto` → `browser_get_html`) để việc trích xuất diễn ra trên DOM đã được cấp nước.
"…chỉ top 5"	Cắt giảm mảng trả về chỉ còn năm hàng đầu tiên.
"…bao gồm đoạn mã cho mỗi kết quả"	Giữ lại trường `snippet` trong các hàng đầu ra.
"…đóng phiên khi bạn hoàn thành"	Thêm một `browser_close` cuối cùng với `sessionId` từ `browser_create`.

Mọi thứ phía dưới đây là tài liệu tham khảo bên trong — bề mặt công cụ, các hình thức trả về chính xác và hành vi mà tác nhân xử lý cho bạn.

Bề mặt công cụ Scrapeless MCP

Khi máy chủ đã được kết nối, Qwen Code thấy 21 công cụ trải dài từ dữ liệu SERP, scraping không trạng thái, đến điều khiển trình duyệt đám mây chống phát hiện đầy đủ.

Công cụ	Công dụng
`google_search`	Thực hiện một tìm kiếm Google (`q`, `hl`, `gl`) và trả về các hàng kết quả hữu cơ có cấu trúc.
`google_trends`	Kéo dữ liệu xu hướng của Google cho một truy vấn.
`scrape_html`	Lấy một URL và trả về HTML đã được hiển thị của nó.
`scrape_markdown`	Lấy một URL và trả về Markdown sạch cho trang.
`scrape_screenshot`	Chụp ảnh màn hình của một URL mục tiêu.
`browser_create`	Mở một phiên trên trình duyệt đám mây chống phát hiện.
`browser_goto`	Điều hướng phiên đến một URL.
`browser_click`	Nhấp vào một phần tử trong trang trực tiếp.
`browser_type`	Gõ văn bản vào một trường nhập hoặc trường có thể chỉnh sửa.
`browser_get_text` / `browser_get_html`	Đọc văn bản hoặc HTML của trang.
`browser_screenshot`	Chụp ảnh màn hình của phiên trực tiếp.
`browser_snapshot`	Trả về một ảnh chụp cấu trúc/tính năng của trang.
`browser_wait` / `browser_wait_for`	Chờ một khoảng thời gian cố định, hoặc cho một điều kiện/phần tử.
`browser_scroll` / `browser_scroll_to`	Cuộn trang, hoặc đến một phần tử cụ thể.
`browser_go_back` / `browser_go_forward`	Di chuyển qua lịch sử phiên.
`browser_press_key`	Gửi một phím từ bàn phím đến trang.
`browser_close`	Kết thúc phiên trình duyệt đám mây.

Nhận khóa API của bạn trên kế hoạch miễn phí: Scrapeless

Những gì bạn nhận lại

Một cuộc gọi google_search trả về một mảng JSON các hàng kết quả hữu cơ. Mỗi hàng mang cùng một khóa, vì vậy tác nhân có thể ánh xạ thẳng đến tiêu đề, liên kết và đoạn mã:

json Copy

// Tên trường phản ánh đầu ra của công cụ google_search; các giá trị là ví dụ minh họa.
[
  {
    "position": 1,
    "title": "Web Scraping With Python: A Complete Guide",
    "link": "https://example.com/python-web-scraping",
    "snippet": "Hướng dẫn từng bước về cách thu thập dữ liệu từ web bằng Python và phân tích HTML.",
    "source": "example.com"
  },
  {
    "position": 2,
    "title": "Scraping Dynamic Sites",
    "link": "https://example.org/dynamic-scraping",
    "snippet": "Cách hiển thị các trang JavaScript trước khi trích xuất dữ liệu.",
    "source": "example.org"
  }
]

Một số quan sát trung thực khi bạn bắt đầu thực hiện các lệnh nhắc:

Các công cụ không trạng thái như google_search và scrape_markdown trả về một thân được tiền tố bằng Response:\n\n theo sau là payload JSON; tác nhân gỡ bỏ tiền tố đó tự động, vì vậy bạn làm việc với dữ liệu, không phải với vỏ bọc.
Các công cụ browser_* trả về văn bản thuần túy mà không có tiền tố Response:\n\n.
Các tham số công cụ sử dụng camelCase: truyền sessionId, proxyCountry, và các trường tương tự chính xác như đã đặt tên.
proxyCountry là một yêu cầu, không phải là một cam kết — nó có thể trì hoãn đến khu vực được cấu hình trên tài khoản của bạn, vì vậy hãy xác nhận khu vực ra khi việc nhắm mục tiêu địa lý quan trọng.
Các giá trị trong đầu ra của công cụ phụ thuộc vào nội dung: số lượng kết quả, thứ tự, và văn bản đoạn mã thay đổi theo truy vấn trực tiếp.

Kết luận: tìm kiếm, hiển thị và duyệt từ terminal

Toàn bộ tích hợp giảm xuống chỉ còn một khối MCP cộng với các lệnh nhắc ngôn ngữ tự nhiên. Với mục nhập scrapeless trong ~/.qwen/settings.json và khóa của bạn trong môi trường, Qwen Code có được tìm kiếm Google trực tiếp, hiển thị JavaScript, và một trình duyệt đám mây chống phát hiện đầy đủ — chính xác là lớp web mà tác nhân không cung cấp một mình. Bạn mô tả nhiệm vụ; tác nhân chọn công cụ.
Nếu bạn đang kết nối với các tác nhân khác, máy chủ Scrapeless MCP giống hệt cũng sẽ được sử dụng: xem các tích hợp Google Antigravity và Pi Agent, cùng với tổng quan về máy chủ Scrapeless MCP để tham khảo đầy đủ công cụ. Giữ khóa API của bạn trong SCRAPELESS_KEY, ưu tiên giao thông stdio cho các CLI cục bộ và HTTP-streamable cho các tác nhân được lưu trữ, và để cho tác nhân tự chọn công cụ. Tham khảo đầy đủ tại docs.scrapeless.com.

Sẵn sàng để xây dựng đường ống dữ liệu powered by AI của bạn chưa?

Tham gia cộng đồng của chúng tôi để nhận một kế hoạch miễn phí và kết nối với các nhà phát triển đang xây dựng tác nhân Qwen Code + Scrapeless MCP: Discord · Telegram.

Đăng ký tại Scrapeless để nhận thời gian chạy Trình duyệt Scraping miễn phí và điều chỉnh tích hợp ở trên cho các SERPs, trang web và khu vực mà đội ngũ của bạn cần. Tham khảo đầy đủ tại docs.scrapeless.com.

Câu hỏi thường gặp

Tại sao Qwen Code cần máy chủ MCP cho tìm kiếm web?

Bởi vì nó không có tìm kiếm web tích hợp sẵn. Công cụ cốt lõi web_search đã bị loại bỏ trong phiên bản đầu tiên và tài liệu chính thức chỉ định tìm kiếm web qua các máy chủ MCP. Kết nối Scrapeless mang lại cho tác nhân khả năng tìm kiếm còn thiếu, plus truy cập trang đã render và một trình duyệt đám mây đầy đủ.

Điều này khác gì với `web_fetch` tích hợp của Qwen Code?

web_fetch thực hiện việc truy xuất URL một cách đơn giản. Nó không render JavaScript và không có lớp chống phát hiện hoặc proxy, vì vậy nó gặp khó khăn trên các ứng dụng một trang và các trang web được bảo vệ bằng bot. Các công cụ Scrapeless bổ sung khả năng tìm kiếm còn thiếu (google_search), văn bản đã render sạch (scrape_markdown), và một trình duyệt chống phát hiện có trạng thái (browser_*) trên các proxy dân cư.

Biến môi trường nào chứa khóa Scrapeless?

SCRAPELESS_KEY. Đây là ngoại lệ đã được tài liệu hóa — CLI và SDK của Scrapeless đọc SCRAPELESS_API_KEY, nhưng máy chủ MCP đọc SCRAPELESS_KEY. Qwen Code có thể mở rộng nó từ môi trường của bạn qua $SCRAPELESS_KEY bên trong đối tượng env của cấu hình.

Qwen Code đọc cấu hình MCP từ đâu?

Từ ~/.qwen/settings.json cho phạm vi người dùng, hoặc .qwen/settings.json trong gốc dự án cho phạm vi dự án. Cả hai đều sử dụng đối tượng mcpServers. Bạn cũng có thể thêm một máy chủ với qwen mcp add và kiểm tra kết nối với qwen mcp list.

stdio so với HTTP streamable — khi nào nên sử dụng cái nào?

Sử dụng stdio khi máy chủ chạy cục bộ cùng với CLI: Qwen Code khởi chạy scrapeless-mcp-server như một tiến trình con và giao tiếp với nó qua đầu vào/đầu ra tiêu chuẩn. Sử dụng HTTP streamable (khóa httpUrl chỉ vào https://api.scrapeless.com/mcp với tiêu đề x-api-token) khi tác nhân được lưu trữ hoặc từ xa và không thể khởi động một tiến trình cục bộ.

`proxyCountry` có luôn áp dụng không?

Không nhất thiết. proxyCountry là một sở thích có thể tạm dừng đến khu vực được cấu hình trên tài khoản của bạn. Nếu định vị địa lý quan trọng, hãy xác nhận khu vực ra thay vì giả định giá trị theo lệnh gọi luôn giành chiến thắng.

Có hợp pháp để thu thập dữ liệu qua tác nhân không?

Việc thu thập dữ liệu công khai thường được cho phép, nhưng bạn phải chịu trách nhiệm về cách bạn sử dụng nó. Xem xét Điều khoản Dịch vụ của từng trang và tôn trọng robots.txt, và nhớ rằng các quy tắc về dữ liệu cá nhân và truy cập khác nhau tùy theo quyền tài phán. Khi không chắc chắn, hãy nhận tư vấn pháp lý cho trường hợp sử dụng cụ thể của bạn.

Bạn có thể sử dụng điều này mà không cần một tác nhân AI không?

Có. Máy chủ Scrapeless MCP là một máy chủ MCP tiêu chuẩn, vì vậy bất kỳ khách hàng tương thích MCP nào cũng có thể gọi nó — hoặc bạn có thể điều khiển nó trực tiếp qua JSON-RPC (initialize, sau đó là tools/list và tools/call). Tác nhân là một tiện ích, không phải là yêu cầu.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Hướng Dẫn Công Cụ USPS Không Bị Lỗi: Thu Thập Dữ Liệu Vận Chuyển Hiệu Quả & Tuân Thủ cho Hệ Thống B2B

Học cách sử dụng Công cụ Scrapeless USPS để lấy dữ liệu theo dõi cấu trúc, thời gian thực một cách hiệu quả và tuân thủ cho các nền tảng ERP, OMS và SaaS.

Emily Chen

02-Jul-2025

Hướng dẫn Công cụ USPS Không Bị Rác: Trích xuất Dữ liệu Gửi hàng Hiệu quả & Tuân thủ cho Hệ thống B2B

Danh mục

Cách thêm tìm kiếm web vào mã Qwen: Tích hợp MCP không rác cho các tác nhân đầu cuối

Những điểm chính:

Giới thiệu: một đại lý lập trình terminal có thể cuối cùng đọc web trực tiếp

Những gì bạn có thể làm với nó

Tại sao chọn máy chủ MCP Scrapeless

Điều kiện tiên quyết

Cài đặt

1. Cài đặt Qwen Code

2. Kết nối một nhà cung cấp mô hình

3. Thêm máy chủ MCP Scrapeless (stdio)

4. Hoặc sử dụng chế độ streaming HTTP

5. Xác minh kết nối

Cách bạn thật sự sử dụng điều này: gọi đại lý Qwen Code của bạn

Lời nhắc bạn có thể dán

Ví dụ đã làm

Định hình các lệnh nhắc

Bề mặt công cụ Scrapeless MCP

Những gì bạn nhận lại

Kết luận: tìm kiếm, hiển thị và duyệt từ terminal

Sẵn sàng để xây dựng đường ống dữ liệu powered by AI của bạn chưa?

Câu hỏi thường gặp

Tại sao Qwen Code cần máy chủ MCP cho tìm kiếm web?

Điều này khác gì với web_fetch tích hợp của Qwen Code?

Biến môi trường nào chứa khóa Scrapeless?

Qwen Code đọc cấu hình MCP từ đâu?

stdio so với HTTP streamable — khi nào nên sử dụng cái nào?

proxyCountry có luôn áp dụng không?

Có hợp pháp để thu thập dữ liệu qua tác nhân không?

Bạn có thể sử dụng điều này mà không cần một tác nhân AI không?

Bài viết phổ biến nhất

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Hướng Dẫn Công Cụ USPS Không Bị Lỗi: Thu Thập Dữ Liệu Vận Chuyển Hiệu Quả & Tuân Thủ cho Hệ Thống B2B

Điều này khác gì với `web_fetch` tích hợp của Qwen Code?

`proxyCountry` có luôn áp dụng không?