Cách thêm Tìm kiếm Web vào GitHub Copilot CLI: Hướng dẫn tích hợp MCP không rác

Ethan Brown

Advanced Bot Mitigation Engineer

27-May-2026

Những điểm chính:

Một tệp cấu hình kết nối truy cập web trực tiếp vào Copilot CLI. Chỉ cần thêm một khối scrapeless vào ~/.copilot/mcp-config.json và agent trong terminal của bạn có được trình thu thập SERP của Google, trình thu thập xu hướng, các trợ giúp trang HTML/Markdown/Screenshot và một bề mặt tự động hóa trình duyệt đám mây đầy đủ — không cần mã SDK, không dịch vụ bổ sung nào phải chạy.
Agent tìm kiếm, hiển thị và điều khiển trình duyệt từ các lệnh tự nhiên. Yêu cầu nó bằng ngôn ngữ tự nhiên để tìm kiếm trên Google, hiển thị một trang nặng JavaScript, hoặc nhấp qua một quy trình nhiều bước, và nó sẽ tạo ra các cuộc gọi công cụ phù hợp từng bước thay vì bị giới hạn ở các tệp cục bộ và kiến thức ngừng đào tạo.
Proxy dân cư và chống phát hiện được xử lý phía đám mây. Mỗi yêu cầu được định tuyến qua trình duyệt chống phát hiện đám mây Scrapeless với proxy dân cư tại hơn 195 quốc gia, vì vậy agent nhận được phản hồi đã hiển thị, có thể sử dụng trên các trang thương mại mà không cần bất kỳ thiết lập proxy hay dấu vân tay nào trên máy của bạn.
Nó hoạt động song song với các công cụ lập trình của Copilot trong cùng một phiên. Các công cụ Scrapeless nằm cạnh các chỉnh sửa tệp của Copilot CLI, các lệnh trong terminal và sinh mã, vì vậy một lượt của agent có thể thu thập web trực tiếp và viết kết quả ngay vào mã mà bạn đang xây dựng.
21 công cụ cho SERP, thu thập không trạng thái và tự động hóa trình duyệt. Máy chủ Scrapeless MCP cung cấp các công cụ google_search, google_trends, scrape_html/scrape_markdown/scrape_screenshot, cùng với 16 công cụ tự động hóa browser_* — một không gian tên mà kế hoạch của agent rút ra từng lượt.
Vận chuyển có thể truyền tải HTTP bao phủ các thiết lập được lưu trữ. Stdio qua npx là mặc định trên một workstation; đối với các container phát triển từ xa hoặc CI runners nơi việc tạo một tiến trình con là khó khăn, hãy chỉ định cùng một cấu hình tại điểm cuối HTTP có thể truyền tải.
Miễn phí để bắt đầu. Tài khoản Scrapeless mới bao gồm thời gian chạy Trình duyệt thu thập miễn phí — đăng ký tại Scrapeless.

Giới thiệu: agent terminal của bạn, giờ đây có cái nhìn về web trực tiếp

GitHub Copilot CLI đã chính thức phát hành vào ngày 25-FEB-2026 như một agent lập trình gốc trong terminal, mặc định là Claude Sonnet 4.5. Nó đọc kho lưu trữ của bạn, chỉnh sửa tệp, thực hiện lệnh và lý luận về dự án trước mặt — tất cả mà không cần rời khỏi shell. Những gì nó không thể làm ngay từ đầu là nhìn thấy web trực tiếp. Kiến thức của nó dừng lại ở thời điểm ngừng đào tạo và các tệp trên đĩa.

Khoảng cách đó xuất hiện ngay khi một nhiệm vụ cần dữ liệu công khai hiện tại. Agent không thể kéo một SERP trực tiếp, đọc trang giá cả của đối thủ, kiểm tra nhật ký thay đổi mới nhất, hoặc hiển thị một ứng dụng chỉ JavaScript — vì vậy câu trả lời trở nên lỗi thời, mọi thứ nhạy cảm về thời gian biến thành sao chép và dán thủ công từ trình duyệt, và agent bay mù trên mọi thứ được công bố sau thời điểm ngừng đào tạo của nó.

Bài viết này lấp đầy khoảng trống đó bằng cách kết nối máy chủ Scrapeless MCP vào GitHub Copilot CLI. Một khối cấu hình cung cấp cho agent tìm kiếm Google, hiển thị JavaScript và trình duyệt đám mây đầy đủ, tất cả đều có thể truy cập thông qua cùng một lệnh bằng ngôn ngữ tự nhiên mà nó đã sử dụng cho mã. Để có cùng bề mặt Scrapeless thông qua các khách hàng MCP khác, xem hướng dẫn Google Antigravity và hướng dẫn máy chủ MCP.

Bạn có thể làm gì với nó

Nghiên cứu SERP trực tiếp trong terminal. Yêu cầu agent chạy google_search cho một truy vấn và trả về các kết quả hàng đầu dưới dạng JSON, vì vậy nghiên cứu diễn ra trong shell thay vì trong một tab trình duyệt riêng biệt.
Ảnh chụp đối thủ và giá cả. Nhập URL của một đối thủ vào lệnh và yêu cầu agent hiển thị trang giá cả và trích xuất tên gói, giá cả và tính năng vào một hồ sơ có cấu trúc mà bạn có thể đặt bên cạnh mã của mình.
Tìm kiếm tài liệu và nhật ký thay đổi phục vụ cho mã. Yêu cầu agent lấy tài liệu hiện tại của một thư viện hoặc ghi chú phát hành dưới dạng markdown sạch và viết dựa trên văn bản được hiển thị thay vì một ký ức lỗi thời về API.
Kiểm tra thị trường và xu hướng. Sử dụng google_trends để kéo tín hiệu quan tâm cho một chủ đề trong một khu vực mục tiêu, sau đó tạo bản sao tính năng, mẫu nội dung hoặc ý tưởng thử nghiệm với chứng cứ hiện tại.
Trích xuất trang JS vào một hồ sơ kiểu. Chỉ định agent đến một trang đã hiển thị bằng JavaScript; trình duyệt đám mây cung cấp dữ liệu và agent phân tích kết quả vào một đối tượng kiểu cho mã mà bạn đang viết.
Quy trình trình duyệt nhiều bước. Nối browser_goto, browser_click, browser_type, và browser_scroll để agent điều hướng trang, mở rộng các panel, hoặc bước qua một wizard trước khi trích xuất.
Chụp màn hình để xem xét. Sử dụng scrape_screenshot hoặc browser_screenshot để lấy một trang đã hiển thị dưới dạng hình ảnh mà agent có thể đính kèm vào cuộc trò chuyện hoặc lưu vào không gian làm việc.
Đường ống tìm kiếm-đọc. Kết hợp google_search với scrape_markdown để agent tìm các kết quả hàng đầu, đọc từng cái một và tóm tắt chúng trong một lượt terminal duy nhất.
Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật của trang web. Nội dung trong bài viết này chỉ mang mục đích trình diễn.

Tại sao chọn Máy chủ MCP Scrapeless

Máy chủ MCP Scrapeless là một cầu nối tùy chỉnh, chống phát hiện giữa tác nhân AI và web trực tiếp. Đối với GitHub Copilot CLI cụ thể, nó mang lại:

Một trình duyệt đám mây chống phát hiện với khả năng kết xuất JavaScript. Các trang được cung cấp năng lượng trong một Trình duyệt Thu thập Dữ liệu Scrapeless hoàn chỉnh trước khi trích xuất, vì vậy các SPA, nguồn cấp dữ liệu cuộn vô hạn và các bảng điều khiển tải lười trở thành đối tượng hàng đầu cho browser_goto + browser_get_html.
Proxy dân cư ở hơn 195 quốc gia. Các truy vấn theo địa lý sẽ trả về danh sách mà người dùng địa phương sẽ thấy, với việc egress proxy hoàn toàn được xử lý bên phía Scrapeless.
Một lệnh stdio thông qua npx, không cần mã SDK. Máy chủ khởi động như một quy trình con từ npx -y scrapeless-mcp-server; không có gì để xây dựng, lưu trữ hoặc nhập vào dự án của bạn.
21 công cụ trải dài từ SERP, thu thập không trạng thái, đến tự động hóa trình duyệt đầy đủ. google_search và google_trends bao phủ dữ liệu SERP, scrape_html/scrape_markdown/scrape_screenshot bao phủ các lần lấy trang một lần, và 16 công cụ browser_* bao phủ điều hướng có trạng thái, nhấp chuột, gõ, cuộn và chụp màn hình.
Giao thông HTTP có thể luồng cho các tác nhân được lưu trữ. Khi Copilot CLI chạy trong một container từ xa hoặc công cụ CI, cùng một bề mặt có thể được truy cập qua điểm cuối HTTP có thể luồng thay vì stdio.

Kế hoạch miễn phí đủ để kết nối và chạy các lệnh thực; hãy so sánh hạn mức trên trang giá khi bạn vượt quá nó. Nhận khóa API của bạn trên kế hoạch miễn phí tại app.scrapeless.com.

Yêu cầu

Node.js 18 hoặc mới hơn trên workstation — Copilot CLI được cài đặt từ npm, và máy chủ stdio MCP được tạo ra với npx.
GitHub Copilot CLI đã cài đặt và một đăng ký GitHub Copilot hoạt động. CLI xác thực dựa trên tài khoản GitHub của bạn, và vòng lặp tác nhân sử dụng hạn mức Copilot; nếu không có đăng ký hoạt động, bước mô hình sẽ không chạy.
Một tài khoản Scrapeless và khóa API — đăng ký trên kế hoạch miễn phí tại Scrapeless và sao chép khóa từ Cài đặt → Quản lý Khóa API.
Quen thuộc cơ bản với terminal — toàn bộ thiết lập là một vài lệnh cộng thêm một tập tin JSON nhỏ.

Cài đặt

Thiết lập có năm bước con; mỗi bước đều có thể xác minh độc lập.

1. Cài đặt GitHub Copilot CLI

Cài đặt CLI toàn cục từ npm, sau đó khởi động nó:

bash Copy

npm install -g @github/copilot
copilot

Lần khởi động đầu tiên đưa bạn vào phiên tương tác Copilot nơi các bước còn lại sẽ chạy.

2. Xác thực Copilot

Trong phiên, đăng nhập bằng lệnh slash /login và làm theo quy trình ủy quyền thiết bị GitHub:

text Copy

/login

Điều này yêu cầu một đăng ký GitHub Copilot hoạt động — CLI sử dụng danh tính GitHub của bạn cho cả xác thực và hạn mức mô hình. Copilot CLI mặc định vào Claude Sonnet 4.5; chuyển đổi backends bất kỳ lúc nào với lệnh slash /model.

3. Thêm máy chủ MCP Scrapeless (stdio)

Copilot CLI đọc máy chủ MCP từ ~/.copilot/mcp-config.json. Tạo tập tin (hoặc thêm khối scrapeless vào một đối tượng mcpServers hiện có) với cấu hình stdio:

json Copy

{
  "mcpServers": {
    "scrapeless": {
      "type": "local",
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": { "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY" },
      "tools": ["*"]
    }
  }
}

Một chi tiết làm mọi người bối rối: máy chủ MCP Scrapeless đọc khóa của nó từ SCRAPELESS_KEY, không phải SCRAPELESS_API_KEY. CLI và SDK của Scrapeless sử dụng SCRAPELESS_API_KEY, nhưng máy chủ MCP là trường hợp ngoại lệ đã được tài liệu — hãy sử dụng SCRAPELESS_KEY ở đây hoặc máy chủ sẽ khởi động mà không có thông tin xác thực. Mã nguồn của máy chủ được lưu trữ tại github.com/scrapeless-ai/scrapeless-mcp-server.

Thay thế khóa thực của bạn cho YOUR_SCRAPELESS_KEY. Dòng "tools": ["*"] cho phép toàn bộ bề mặt công cụ. Bạn cũng có thể quản lý máy chủ từ bên trong một phiên với các lệnh slash /mcp — /mcp add, /mcp show, /mcp edit, /mcp delete, /mcp enable, và /mcp disable — viết vào cùng một tập tin cấu hình.

4. Hoặc sử dụng chế độ HTTP có thể luồng

Nếu máy chủ không thể khởi động npx một cách đáng tin cậy — một container dev được lưu trữ, một không gian làm việc từ xa, hoặc một sandbox CI — hãy chỉ định Copilot tới điểm cuối HTTP Scrapeless thay vì quy trình cục bộ:

json Copy

{
  "mcpServers": {
    "scrapeless": {
      "type": "http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": { "x-api-token": "YOUR_SCRAPELESS_KEY" },
      "tools": ["*"]
    }
  }
}

Giá trị khóa giống nhau hoạt động ở cả hai chế độ; lưu ý rằng luồng HTTP có thể truyền nó dưới dạng header x-api-token thay vì biến môi trường SCRAPELESS_KEY. Stdio là mặc định đúng trên một trạm phát triển; luồng HTTP có thể là mặc định đúng ở bất kỳ đâu mà một quy trình con lâu dài khó duy trì.

5. Xác minh kết nối

Khởi động CLI và liệt kê các máy chủ MCP đã kết nối:

text Copy

copilot
/mcp

Máy chủ scrapeless nên xuất hiện với 21 công cụ đã được tải — các công cụ dữ liệu Google (google_search, google_trends), các công cụ hỗ trợ một lần (scrape_html, scrape_markdown, scrape_screenshot), và các nguyên thủy của trình duyệt đám mây (browser_create, browser_goto, browser_get_html, browser_get_text, browser_click, browser_type, browser_press_key, browser_scroll, browser_scroll_to, browser_screenshot, browser_snapshot, browser_wait, browser_wait_for, browser_go_back, browser_go_forward, browser_close). Nếu máy chủ được liệt kê và các công cụ đã được liệt kê, thì kết nối là tốt và khóa API là hợp lệ.

Cách bạn thực sự sử dụng điều này: nhắc nhở đại lý Copilot CLI của bạn

Sau khi kết nối với máy chủ MCP, bạn nhận dữ liệu web trực tiếp bằng cách nói chuyện với Copilot CLI trong terminal — không phải bằng cách viết tay các lệnh công cụ. Đại lý đọc danh sách công cụ mà máy chủ Scrapeless MCP cung cấp và chọn google_search, scrape_markdown, hoặc các công cụ browser_* khi cần, tạo thành chúng từng bước từ nhắc nhở bằng ngôn ngữ tự nhiên. Không cần phải viết JSON công cụ ở phía bạn và không có yêu cầu gọi MCP thủ công nào cả. (Copilot CLI chạy các nhắc nhở tương tác trong một phiên, hoặc không tương tác với copilot -p "<nhắc nhở>" cho các lần chạy một lần và lập trình.)

Các nhắc nhở mà bạn có thể dán

Nhắc nhở	Hành động của đại lý
"Tìm các kết quả Google hàng đầu cho `vector database benchmarks 2026` và trả về chúng dưới dạng JSON."	`google_search` với `q`, `hl`, `gl` → hàng kết quả đã gõ.
"Chủ đề tìm kiếm nào đang gia tăng cho `công cụ phát triển` ở Hoa Kỳ hiện tại?"	`google_trends`.
"Lấy trang tài liệu React tại `https://react.dev/learn/synchronizing-with-effects` dưới dạng markdown sạch."	`scrape_markdown`.
"Mở `https://pricing.example.com`, đây là một ứng dụng JavaScript — hiển thị nó và trích xuất tên kế hoạch, giá cả và tính năng dưới dạng JSON."	`browser_create` → `browser_goto` → `browser_get_html` → trích xuất đã gõ.
"So sánh các trang giá ở `https://a.example.com/pricing` và `https://b.example.com/pricing` và cho tôi biết chúng khác nhau ở đâu."	`browser_create` → `browser_goto` (trang A) → `browser_get_html` → `browser_goto` (trang B) → `browser_get_html` → so sánh.
"Chụp ảnh toàn trang của `https://example.com/landing`."	`scrape_screenshot`.
"Lấy HTML đã hiển thị từ `https://example.com` để tôi có thể đọc kiểu đánh dấu."	`scrape_html`.
"Mở `https://example.com/jobs`, chờ cho danh sách tải lên, chụp lại trang, sau đó trích xuất mọi tiêu đề công việc và địa điểm dưới dạng JSON."	`browser_create` → `browser_goto` → `browser_wait_for` → `browser_snapshot` → trích xuất đã gõ → `browser_close`.

Ví dụ thực tế

Bạn gõ:

bash Copy

copilot -p "Tìm các kết quả tự nhiên hàng đầu cho 'web scraping python' và tóm tắt ba kết quả hàng đầu với các liên kết."

Kế hoạch của đại lý (bằng tiếng Anh rõ ràng):

Gọi google_search với q: "web scraping python", hl: "en", gl: "us".
Nhận một mảng các hàng kết quả và đọc các trường position, title, link, và snippet.
Sắp xếp theo position và giữ lại ba hàng đầu tiên.
Tóm tắt mỗi kết quả từ snippet của nó và ghép nối tóm tắt với title và link của hàng đó.
Trả về ba tóm tắt cùng với các liên kết của chúng trong terminal.

Những gì bạn nhận được lại (hình dạng minh họa — đại lý làm việc từ các hàng như thế này):

json Copy

[
  {
    "position": 1,
    "title": "Hướng dẫn Web Scraping bằng Python",
    "link": "https://www.example.com/python-web-scraping",
    "snippet": "Hướng dẫn từng bước để thu thập dữ liệu từ các trang web bằng Python, requests, và một trình phân tích.",
    "source": "example.com"
  },
  {
    "position": 2,
    "title": "Tài liệu Beautiful Soup",
    "link": "https://www.example.org/beautifulsoup/docs",
    "snippet": "Tài liệu tham khảo cho việc phân tích các tài liệu HTML và XML trong Python.",
    "source": "example.org"
  },
  {
    "position": 3,
    "title": "Thực hiện việc thu thập dữ liệu từ các trang động trong Python",
    "link": "https://blog.example.net/dynamic-scraping",
    "snippet": "Cách hiển thị các trang JavaScript trước khi trích xuất dữ liệu.",
    "source": "example.net"
  }
]
// Tên trường khớp với hình dạng hàng google_search; các giá trị là mẫu minh họa.

Các công cụ dữ liệu không trạng thái (google_search, google_trends, scrape_html, scrape_markdown) trả về payload của chúng dưới dạng một thân được tiền tố bằng Response:\n\n; đại lý sẽ gỡ bỏ tiền tố đó trước khi phân tích JSON, vì vậy bạn không bao giờ thấy nó trong câu trả lời.

Hình thành các nhắc nhở

Nói điều này	Hiệu ứng
"…từ Đức" / "…kết quả Đức"	Chuyển hướng lưu lượng đi qua `proxyCountry` và đặt `gl=de` trên tìm kiếm.
"…dưới dạng markdown, bỏ qua điều hướng và mẫu mã"	Chọn `scrape_markdown` để nhận dữ liệu văn bản sạch thay vì HTML thô.
"…render nó trước, đó là một ứng dụng trang đơn"	Bắt buộc sử dụng đường dẫn `browser_*` (`browser_create` → `browser_goto` → `browser_get_html`) để việc trích xuất diễn ra trên DOM đã được làm đầy.
"…chỉ top 5"	Cắt mảng trả về thành năm hàng đầu tiên.
"…bao gồm snippet cho mỗi kết quả"	Giữ trường `snippet` trong các hàng đầu ra.
"…đóng phiên khi bạn hoàn tất"	Thêm một lệnh `browser_close` cuối cùng với `sessionId` từ `browser_create`.

Mọi thứ bên dưới là tài liệu tham khảo bên trong — giao diện công cụ, hình thức trả về chính xác và các trường hợp biên mà tác nhân xử lý cho bạn.

Giao diện công cụ Scrapeless MCP

Khi server được kết nối, GitHub Copilot CLI nhận thấy 21 công cụ bao quát dữ liệu SERP, việc thu thập dữ liệu không trạng thái và kiểm soát trình duyệt đám mây chống phát hiện đầy đủ.

Công cụ	Công dụng
`google_search`	Thực hiện tìm kiếm Google (`q`, `hl`, `gl`) và trả về các hàng kết quả hữu cơ có cấu trúc.
`google_trends`	Tải dữ liệu quan tâm của Google Trends cho một truy vấn.
`scrape_html`	Lấy một URL và trả về HTML được làm đầy.
`scrape_markdown`	Lấy một URL và trả về Markdown sạch cho trang.
`scrape_screenshot`	Chụp ảnh màn hình của một URL mục tiêu.
`browser_create`	Mở một phiên trên trình duyệt đám mây chống phát hiện.
`browser_goto`	Điều hướng phiên đến một URL.
`browser_click`	Nhấn vào một phần tử trên trang trực tiếp.
`browser_type`	Gõ văn bản vào một trường nhập hoặc trường chỉnh sửa.
`browser_get_text` / `browser_get_html`	Đọc văn bản hoặc HTML của trang.
`browser_screenshot`	Chụp ảnh màn hình của phiên trực tiếp.
`browser_snapshot`	Trả về một ảnh chụp phản ánh khả năng truy cập/cấu trúc của trang.
`browser_wait` / `browser_wait_for`	Chờ một khoảng thời gian cố định, hoặc cho một điều kiện/phần tử.
`browser_scroll` / `browser_scroll_to`	Cuộn trang, hoặc đến một phần tử cụ thể.
`browser_go_back` / `browser_go_forward`	Di chuyển qua lịch sử phiên.
`browser_press_key`	Gửi một phím bàn phím đến trang.
`browser_close`	Kết thúc phiên trình duyệt đám mây.

Nhận khóa API của bạn trên kế hoạch miễn phí: Scrapeless

Những gì bạn nhận lại

Một cuộc gọi google_search trả về một mảng JSON các hàng kết quả hữu cơ. Mỗi hàng mang các khóa giống nhau, vì vậy tác nhân có thể ánh xạ thẳng đến tiêu đề, liên kết và snippet:

json Copy

// Tên trường phản ánh đầu ra của công cụ google_search; giá trị là các mẫu minh họa.
[
  {
    "position": 1,
    "title": "Hướng dẫn thu thập dữ liệu web bằng Python",
    "link": "https://example.com/python-web-scraping",
    "snippet": "Một hướng dẫn từng bước để thu thập dữ liệu web với Python và phân tích HTML.",
    "source": "example.com"
  },
  {
    "position": 2,
    "title": "Các thực hành tốt nhất trong thu thập dữ liệu web",
    "link": "https://example.org/best-practices",
    "snippet": "Cách thu thập dữ liệu một cách có trách nhiệm: giới hạn tốc độ, robots.txt và xuất ra có cấu trúc.",
    "source": "example.org"
  }
]

Một vài quan sát chân thành khi bạn bắt đầu chạy các câu lệnh:

Các công cụ không trạng thái như google_search và scrape_markdown trả về một phần nội dung được tiền tố bằng Response:\n\n tiếp theo là tải trọng JSON; tác nhân sẽ tự động bóc phần tiền tố đó ra, vì vậy bạn có thể làm việc với dữ liệu, không phải là phần bao quanh.
Các công cụ browser_* trả về văn bản thuần túy mà không có tiền tố Response:\n\n.
Các tham số công cụ là camelCase: gửi sessionId, proxyCountry, và các trường tương tự đúng như tên gọi.
proxyCountry là một yêu cầu, không phải là một đảm bảo — nó có thể phụ thuộc vào vùng được cấu hình trên tài khoản của bạn. - Giá trị trong đầu ra công cụ phụ thuộc vào nội dung: số lượng kết quả, thứ tự, và văn bản snippet thay đổi theo truy vấn trực tiếp.

Kết luận: tìm kiếm, render, và duyệt từ terminal

Toàn bộ tích hợp giảm xuống còn một khối cấu hình MCP cộng với các câu lệnh bằng ngôn ngữ tự nhiên. Với mục nhập scrapeless-mcp-server đã được thiết lập và khóa của bạn trong môi trường, GitHub Copilot CLI có được tìm kiếm Google trực tiếp, render JavaScript, và một trình duyệt đám mây chống phát hiện đầy đủ — tất cả mà không cần rời khỏi terminal hoặc dây điện lên một khách hàng HTTP nào bằng tay. Bạn mô tả nhiệm vụ; tác nhân chọn công cụ.

Nếu bạn đang kết nối các tác nhân khác, cùng một server Scrapeless MCP cũng có thể tích hợp vào chúng: xem Google Antigravity và Pi Agent tích hợp, cùng với tổng quan về server Scrapeless MCP cho tài liệu tham khảo đầy đủ về công cụ. Giữ khóa API của bạn ở SCRAPELESS_KEY, ưu tiên vận chuyển stdio cho các CLI cục bộ và HTTP-streamable cho các tác nhân được lưu trữ, và để tác nhân chọn các công cụ. Tài liệu tham khảo đầy đủ tại docs.scrapeless.com.

Câu hỏi thường gặp

Việc thu thập dữ liệu web qua tác nhân có hợp pháp không?

Việc thu thập dữ liệu công khai là hợp pháp, nhưng bạn phải chịu trách nhiệm về cách bạn sử dụng nó. Hãy xem xét Điều khoản Dịch vụ của từng trang và tôn trọng tệp robots.txt, và nhớ rằng các quy định về dữ liệu cá nhân và truy cập khác nhau theo từng khu vực pháp lý. Khi còn nghi ngờ, hãy tìm tư vấn pháp lý cho trường hợp sử dụng cụ thể của bạn.

Bạn có cần khóa API Scrapeless không, và biến môi trường nào chứa nó?

Có. Máy chủ Scrapeless MCP xác thực bằng khóa tài khoản của bạn, mà bạn đặt trong SCRAPELESS_KEY. Nếu không có nó, máy chủ sẽ khởi động nhưng các công cụ của nó không thể truy cập backend của Scrapeless.

Bạn có cần đăng ký GitHub Copilot không?

Có. GitHub Copilot CLI thực hiện các vòng lặp của nó dựa trên mô hình của Copilot, điều này yêu cầu một đăng ký Copilot đang hoạt động với hạn mức có sẵn. Máy chủ MCP và các công cụ của nó là riêng biệt; đăng ký chỉ bao gồm mô hình của tác nhân, không phải các cuộc gọi Scrapeless.

stdio so với HTTP streamable — khi nào bạn nên sử dụng mỗi loại?

Sử dụng stdio khi máy chủ chạy cục bộ song song với CLI: tác nhân khởi chạy scrapeless-mcp-server như một quy trình con và giao tiếp với nó qua đầu vào/đầu ra tiêu chuẩn. Sử dụng giao thức vận chuyển HTTP streamable (https://api.scrapeless.com/mcp với tiêu đề x-api-token) khi tác nhân được lưu trữ hoặc từ xa và không thể tạo một quy trình cục bộ. Đối với thiết lập Copilot CLI cục bộ, stdio là sự lựa chọn đơn giản nhất.

Tác nhân có thể thực hiện một quy trình duyệt web đầy đủ, không chỉ tìm kiếm?

Có. 16 công cụ browser_* cho phép tác nhân mở một phiên, điều hướng, nhấp chuột, gõ, cuộn, chờ các phần tử, chụp ảnh, chụp màn hình và đóng — một quy trình duyệt web đám mây hoàn chỉnh hoàn toàn được điều khiển bằng các yêu cầu bằng ngôn ngữ tự nhiên.

`proxyCountry` có luôn được áp dụng không?

Không nhất thiết. proxyCountry là một sở thích có thể phụ thuộc vào khu vực được cấu hình trên tài khoản của bạn. Nếu định hướng địa lý quan trọng, hãy xác nhận khu vực ra (egress region) thay vì giả định rằng giá trị theo cuộc gọi luôn được ưu tiên.

Bạn có thể sử dụng điều này mà không cần tác nhân AI không?

Có. Máy chủ Scrapeless MCP là một máy chủ MCP tiêu chuẩn, vì vậy bất kỳ khách hàng nào tương thích với MCP đều có thể gọi nó — hoặc bạn có thể điều khiển trực tiếp qua JSON-RPC (initialize, sau đó tools/list và tools/call). Tác nhân chỉ là sự tiện lợi, không phải yêu cầu bắt buộc.

Sẵn sàng để xây dựng quy trình dữ liệu hỗ trợ AI của bạn?

Hãy gia nhập cộng đồng của chúng tôi để nhận kế hoạch miễn phí và kết nối với các nhà phát triển đang xây dựng tác nhân GitHub Copilot CLI + Scrapeless MCP: Discord · Telegram.

Đăng ký tại Scrapeless để nhận môi trường chạy Scraping Browser miễn phí và điều chỉnh tích hợp ở trên cho các SERPs, trang và khu vực mà nhóm bạn cần. Tham khảo đầy đủ tại docs.scrapeless.com.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Hướng Dẫn Công Cụ USPS Không Bị Lỗi: Thu Thập Dữ Liệu Vận Chuyển Hiệu Quả & Tuân Thủ cho Hệ Thống B2B

Học cách sử dụng Công cụ Scrapeless USPS để lấy dữ liệu theo dõi cấu trúc, thời gian thực một cách hiệu quả và tuân thủ cho các nền tảng ERP, OMS và SaaS.

Emily Chen

02-Jul-2025

Hướng dẫn Công cụ USPS Không Bị Rác: Trích xuất Dữ liệu Gửi hàng Hiệu quả & Tuân thủ cho Hệ thống B2B

Danh mục

Cách thêm Tìm kiếm Web vào GitHub Copilot CLI: Hướng dẫn tích hợp MCP không rác

Những điểm chính:

Giới thiệu: agent terminal của bạn, giờ đây có cái nhìn về web trực tiếp

Bạn có thể làm gì với nó

Tại sao chọn Máy chủ MCP Scrapeless

Yêu cầu

Cài đặt

1. Cài đặt GitHub Copilot CLI

2. Xác thực Copilot

3. Thêm máy chủ MCP Scrapeless (stdio)

4. Hoặc sử dụng chế độ HTTP có thể luồng

5. Xác minh kết nối

Cách bạn thực sự sử dụng điều này: nhắc nhở đại lý Copilot CLI của bạn

Các nhắc nhở mà bạn có thể dán

Ví dụ thực tế

Hình thành các nhắc nhở

Giao diện công cụ Scrapeless MCP

Những gì bạn nhận lại

Kết luận: tìm kiếm, render, và duyệt từ terminal

Câu hỏi thường gặp

Việc thu thập dữ liệu web qua tác nhân có hợp pháp không?

Bạn có cần khóa API Scrapeless không, và biến môi trường nào chứa nó?

Bạn có cần đăng ký GitHub Copilot không?

stdio so với HTTP streamable — khi nào bạn nên sử dụng mỗi loại?

Tác nhân có thể thực hiện một quy trình duyệt web đầy đủ, không chỉ tìm kiếm?

proxyCountry có luôn được áp dụng không?

Bạn có thể sử dụng điều này mà không cần tác nhân AI không?

Sẵn sàng để xây dựng quy trình dữ liệu hỗ trợ AI của bạn?

Bài viết phổ biến nhất

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Hướng Dẫn Công Cụ USPS Không Bị Lỗi: Thu Thập Dữ Liệu Vận Chuyển Hiệu Quả & Tuân Thủ cho Hệ Thống B2B

`proxyCountry` có luôn được áp dụng không?