🎯 Trình duyệt đám mây tùy chỉnh, chống phát hiện được hỗ trợ bởi Chromium tự phát triển, thiết kế dành cho trình thu thập dữ liệu webtác nhân AI. 👉Dùng thử ngay
Quay lại blog

MCP là gì? Giải thích về Giao thức Ngữ cảnh Mô hình cho Dữ liệu Web

Ava Wilson
Ava Wilson

Expert in Web Scraping Technologies

26-Jun-2026

Tóm tắt

MCP là tiêu chuẩn cho phép một ứng dụng AI truy cập các công cụ và dữ liệu bên ngoài thông qua một giao thức duy nhất thay vì một đống các tích hợp tùy chỉnh. Đối với dữ liệu web, nó là cầu nối từ một mô hình chỉ biết tập dữ liệu huấn luyện của nó đến một tác nhân có thể tìm kiếm, thu thập và duyệt web trực tiếp — mỗi khả năng được phơi bày như một công cụ có thể khám phá, mỗi cuộc gọi là một thông điệp JSON-RPC, mỗi máy chủ có thể di chuyển qua mọi máy chủ hỗ trợ MCP. Thông cáo ra mắt đề cập đến việc triển khai Scrapeless trong bài viết Máy chủ Scrapeless MCP.

Giới thiệu

Giao thức Ngữ cảnh Mô hình (MCP) là một tiêu chuẩn mở cho phép một ứng dụng AI gọi các công cụ và nguồn dữ liệu bên ngoài thông qua một giao diện đồng nhất. Thay vì phải mã hóa một tích hợp riêng cho mỗi API mà một tác nhân cần, bạn kết nối tác nhân với một máy chủ MCP, và máy chủ phơi bày các khả năng của nó — tìm kiếm, duyệt web, thu thập dữ liệu, truy vấn cơ sở dữ liệu — dưới dạng danh sách các công cụ có thể gọi mà mô hình có thể kích hoạt trong một cuộc trò chuyện.

Đối với dữ liệu web cụ thể, MCP là lớp biến "mô hình chỉ có thể đọc dữ liệu huấn luyện của nó" thành "mô hình có thể lấy một trang trực tiếp, thực hiện một tìm kiếm Google hoặc điều khiển một trình duyệt thực, sau đó lý luận về những gì trở lại." Mục nhập này giải thích MCP là gì, cơ chế máy khách/máy chủ cơ bản của nó, và nó phù hợp như thế nào với các cách cũ để kết nối các công cụ vào một LLM.


Tại sao MCP tồn tại

Trước MCP, mỗi công cụ mà một tác nhân sử dụng là một tích hợp riêng biệt. Một nhóm muốn trợ lý của họ tìm kiếm trên web, đọc PDF và truy vấn kho hàng đã viết ba bộ điều hợp khác nhau, mỗi cái có xác thực riêng, hình dạng payload riêng, và các chế độ lỗi riêng. Thay đổi mô hình, hoặc thêm một công cụ thứ tư, và việc kết nối lại tăng lên. Giao thức được giới thiệu bởi Anthropic vào cuối năm 2024 và kể từ đó đã được áp dụng trên toàn bộ hệ sinh thái tác nhân nhằm giải quyết vấn đề tích hợp M-by-N thành một hợp đồng duy nhất.

Phép tương tự mà người ta nhớ là một tiêu chuẩn cổng. MCP trong công cụ AI giống như một bộ kết nối phổ quát đối với các thiết bị ngoại vi: ứng dụng chủ sử dụng một giao thức, và bất kỳ máy chủ nào cũng sử dụng nó đều có thể kết nối mà không cần phải cài đặt tùy chỉnh. Một máy chủ thu thập dữ liệu web, một máy chủ hệ thống tập tin, và một máy chủ Postgres đều cung cấp cùng một hình dạng cho mô hình, vì vậy thời gian chạy của tác nhân chỉ cần học giao thức một lần thay vì học API của từng nhà cung cấp.


MCP hoạt động như thế nào

MCP là một giao thức máy khách-máy chủ được xây dựng trên JSON-RPC 2.0, cùng định dạng gọi thủ tục từ xa nhẹ được sử dụng trong nhiều công cụ hiện có. Ba vai trò thực hiện công việc:

  • Máy chủ — ứng dụng AI mà người dùng tương tác (một khách hàng trò chuyện, một trợ lý IDE, một tác nhân tự động). Nó chạy một máy khách MCP cho mỗi máy chủ mà nó kết nối tới.
  • Máy khách — bộ kết nối bên trong máy chủ giữ một phiên duy nhất với một máy chủ và chuyển tiếp thông điệp theo cả hai chiều.
  • Máy chủ — chương trình phơi bày các khả năng. Một máy chủ dữ liệu web công bố các công cụ như một cuộc gọi tìm kiếm hoặc lấy trang; một máy chủ cơ sở dữ liệu công bố các công cụ truy vấn; một máy chủ hệ thống tập tin công bố các công cụ đọc và ghi.

Việc bắt tay là cố định. Khi kết nối, máy khách và máy chủ trao đổi một thông điệp initialize để xác định phiên bản giao thức và công bố khả năng — chẳng hạn, máy chủ Scrapeless MCP trực tiếp thương thảo phiên bản giao thức 2024-11-05 và quảng bá khả năng tools. Sau khi máy khách gửi thông báo initialized, nó có thể gọi tools/list để khám phá các gì máy chủ cung cấp, sau đó tools/call để kích hoạt một cái. Mỗi thông điệp là một đối tượng JSON-RPC với method, params, và một id liên kết mỗi yêu cầu với phản hồi của nó.

Các công cụ là nguyên tố mà phần lớn công việc với dữ liệu web phụ thuộc vào. Một công cụ có tên, mô tả dễ hiểu, và một JSON Schema cho các đầu vào của nó, vì vậy mô hình biết cả rằng nó có thể gọi google_searchnhững gì tham số cuộc gọi kỳ vọng. Một trao đổi tools/call tối thiểu trông như thế này:

json Copy
// Schema phản ánh hình dạng JSON-RPC 2.0 / MCP tools/call. Giá trị trường là các mẫu minh họa.
// Yêu cầu
{
  "jsonrpc": "2.0",
  "id": 2,
  "method": "tools/call",
  "params": {
    "name": "scrape_markdown",
    "arguments": { "url": "https://example.com" }
  }
}
// Phản hồi
{
  "jsonrpc": "2.0",
  "id": 2,
  "result": {
    "content": [{ "type": "text", "text": "# Ví dụ về Tên miền\n..." }]
  }
}

Giao thông nằm dưới lớp tin nhắn đó. Các máy chủ địa phương thường chạy qua stdio — máy chủ khởi động máy chủ như một quy trình con và chuyển tiếp JSON-RPC qua đầu vào và đầu ra chuẩn. Các máy chủ từ xa chạy qua HTTP có thể stream, nơi khách hàng mở một phiên chống lại một URL và nhận phản hồi dưới dạng sự kiện do máy chủ gửi. Máy chủ Scrapeless MCP có thể truy cập như một điểm cuối từ xa tại https://api.scrapeless.com/mcp, xác thực bằng một khóa API từ tài liệu, và cung cấp 21 công cụ trải dài từ tìm kiếm Google và xu hướng, cạo trang trực tiếp (HTML, markdown, chụp màn hình), và một bộ đầy đủ các hành động tự động hóa trình duyệt — tạo phiên, điều hướng, nhấp chuột, gõ, cuộn, chụp ảnh, và chờ — để một đại lý có thể kéo một trang trong một lần gọi hoặc điều khiển một trình duyệt đám mây thực sự từng bước.

Nhận khóa API của bạn trên gói miễn phí: app.scrapeless.com


Những gì các đội sử dụng MCP cho dữ liệu web

  • Truy cập web trực tiếp cho các đại lý. Một trợ lý có thể gọi một công cụ tìm kiếm hoặc cạo từ trái đất hiện tại thay vì dữ liệu huấn luyện cũ, với nội dung trang được trả về dưới dạng văn bản mà mô hình đọc trực tiếp.
  • Một khách hàng, nhiều nguồn. Bởi vì mỗi máy chủ trình bày cùng một bề mặt tools/list, một trình thực thi đại lý đơn có thể giữ các phiên với một máy chủ tìm kiếm, một máy chủ trình duyệt và một máy chủ cơ sở dữ liệu cùng một lúc, và chuyển hướng mỗi nhiệm vụ đến công cụ phù hợp.
  • Trích xuất điều khiển trình duyệt. Các công cụ tạo và điều khiển một trình duyệt đám mây cho phép một đại lý tiếp cận các trang được render bằng JavaScript hoặc yêu cầu tương tác — nhấp qua, chờ render, sau đó đọc DOM — mà không cần máy chủ chuyển giao ngăn xếp trình duyệt của riêng mình.
  • Cạo có cấu trúc trong một lời nhắc. Một công cụ cạo markdown hoặc HTML biến "đọc URL này" thành một cuộc gọi công cụ đơn mà trả về nội dung sạch, sẵn sàng cho mô hình, vì vậy một bước truy xuất trở thành một phần của cuộc trò chuyện hơn là một pipeline riêng biệt.
  • Tích hợp di động. Một máy chủ được viết một lần hoạt động trên mọi máy chủ có khả năng MCP — các công cụ dữ liệu web giống nhau sáng lên trong một khách hàng trò chuyện trên máy tính để bàn, một đại lý IDE và một thời gian thực tùy chỉnh mà không cần viết lại cho từng máy chủ.

MCP so với các cách cũ để kết nối công cụ

Phương pháp Cách mô tả các công cụ Tái sử dụng giữa các máy chủ Khám phá
MCP Một giao thức; các máy chủ xuất bản công cụ với đầu vào JSON Schema Bất kỳ máy chủ MCP nào cũng kết nối mà không cần mã tùy chỉnh Động — tools/list tại thời gian chạy
Gọi hàm nội tại Lược đồ theo ứng dụng được truyền trong yêu cầu API Tái thực hiện theo mô hình và theo ứng dụng Tĩnh — được định nghĩa trong mã của riêng bạn
Bộ chuyển đổi API tự định nghĩa Khách hàng riêng cho mỗi dịch vụ Không có — mỗi cái là một lần Không có — được mã hóa cứng
Đặc tả plugin (theo người cung cấp) Danh sách đặc trưng riêng của người cung cấp Gắn với máy chủ của người cung cấp đó Dựa trên danh sách

Sự phân biệt quan trọng: gọi hàm là cách một mô hình yêu cầu sử dụng một công cụ; MCP là cách một máy chủ cung cấp công cụ cho bất kỳ máy chủ nào của mô hình. Chúng kết hợp thay vì cạnh tranh — một máy chủ MCP thường hiển thị mỗi công cụ được liệt kê bởi máy chủ như một định nghĩa gọi hàm cho bất kỳ mô hình nào mà nó chạy. Điều mà MCP thêm vào là hợp đồng tiêu chuẩn và khám phá thời gian chạy, do đó các công cụ mà một đại lý có thể tiếp cận không còn bị đóng băng trong mã nguồn của ứng dụng. Để tìm hiểu sâu hơn về cách công cụ trình duyệt MCP so sánh với Chrome DevTools và tích hợp Playwright, hướng dẫn tích hợp MCP đi qua các thỏa thuận.

MCP lấy định dạng tin nhắn của nó trực tiếp từ đặc tả JSON-RPC 2.0, mà payloads của nó được mã hóa như định dạng trao đổi JSON được định nghĩa trong RFC 8259. Các vai trò, cuộc sống và nguyên tắc của giao thức được trình bày trong tài liệu chính thức của Giao thức Ngữ cảnh Mô hình, và hình dạng chính xác của việc khám phá và gọi công cụ nằm trong đặc tả công cụ máy chủ MCP.


Những gì cần tìm trong một máy chủ MCP cho dữ liệu web

  • Một trình duyệt thực, không chỉ là một truy xuất HTTP. Nhiều trang mục tiêu được render ở phía máy khách hoặc yêu cầu nội dung thông qua tương tác. Một máy chủ có thể tạo và điều khiển một trình duyệt đám mây tiếp cận những trang đó; một công cụ chỉ truy xuất HTTP không thể.
  • Cả hai con đường nhanh và sâu. Một công cụ cạo markdown hoặc HTML bao phủ các trang tĩnh trong một cuộc gọi; các hành động trình duyệt từng bước bao phủ những trang khó khăn. Các máy chủ mà cung cấp cả hai cho phép đại lý lựa chọn theo từng nhiệm vụ.
  • Mô tả và sơ đồ công cụ sạch. Mô hình chỉ sử dụng công cụ một cách hiệu quả khi mô tả và sơ đồ đầu vào của nó chính xác - các công cụ mơ hồ thường bị gọi sai hoặc bị bỏ qua.
  • Hạ tầng quản lý. Việc thoát cư trú qua hơn 195 quốc gia, xử lý phiên, và rendering chống phát hiện là những gì làm cho các công cụ web trả về nội dung thực thay vì các trang thách thức - và một máy chủ được quản lý ẩn tất cả điều đó sau lệnh gọi công cụ.
  • Vận chuyển từ xa và địa phương. Một điểm cuối HTTP có thể stream từ xa kết nối từ bất kỳ máy chủ nào với một khóa; một lệnh khởi động stdio phù hợp với các thiết lập quy trình con địa phương. API Scraping API của Scrapeless hỗ trợ các công cụ của máy chủ, với giá cả dựa trên mức sử dụng và tín dụng miễn phí khi đăng ký.

Sẵn sàng kết nối đại diện của bạn với web trực tiếp?

Tham gia cộng đồng của chúng tôi để nhận một kế hoạch miễn phí và kết nối với các nhà phát triển xây dựng các đại lý dữ liệu web chạy trên MCP: Discord · Telegram.

Đăng ký tại app.scrapeless.com để nhận tín dụng miễn phí và chỉ định các công cụ của máy chủ Scrapeless MCP tới các tìm kiếm, trang và luồng trình duyệt mà đại diện của bạn cần.


Câu hỏi thường gặp

Q: MCP là viết tắt của gì?

MCP là viết tắt của Model Context Protocol - một tiêu chuẩn mở để kết nối các ứng dụng AI với các công cụ và nguồn dữ liệu bên ngoài thông qua một giao diện client–server duy nhất được xây dựng trên JSON-RPC 2.0.

Q: MCP có phải là gọi hàm không?

Không. Gọi hàm là cách mà một mô hình yêu cầu một công cụ trong một cuộc gọi API; MCP là cách mà một máy chủ cung cấp các công cụ cho bất kỳ máy chủ nào có khả năng MCP. Chúng hoạt động cùng nhau - một máy chủ thường biến mỗi công cụ được liệt kê trong MCP thành một định nghĩa gọi hàm cho mô hình mà nó chạy.

Q: Tôi có cần phải viết mã để sử dụng máy chủ MCP không?

Để sử dụng từ một máy chủ có khả năng MCP, bạn chỉ cần chỉ định máy chủ tới điểm cuối hoặc lệnh khởi động của máy chủ và cung cấp bất kỳ khóa nào cần thiết - máy chủ sẽ xử lý bắt tay giao thức và phát hiện công cụ. Việc xây dựng một máy chủ riêng là nơi mã code được sử dụng.

Q: Một máy chủ MCP có thể làm gì cho việc thu thập dữ liệu web?

Nó mở ra việc thu thập và duyệt như các công cụ có thể gọi, vì vậy một đại lý có thể lấy một trang dưới dạng markdown hoặc HTML, thực hiện một tìm kiếm, hoặc điều khiển một trình duyệt đám mây thông qua các cú nhấp chuột và cuộn - sau đó lý luận về nội dung được trả về trong cùng một cuộc hội thoại.

Q: Máy chủ Scrapeless MCP phơi bày bao nhiêu công cụ?

Máy chủ Scrapeless MCP tại https://api.scrapeless.com/mcp phơi bày 21 công cụ, bao gồm tìm kiếm và xu hướng Google, thu thập trang trực tiếp dưới dạng HTML, markdown, và hình chụp màn hình, và một bộ đầy đủ các hành động tự động hóa trình duyệt đám mây.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục