🥳Tham gia Cộng đồng Scrapelessnhận thử nghiệm miễn phí của bạn để truy cập Bộ công cụ Web Scraping mạnh mẽ của chúng tôi!
Quay lại blog

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Michael Lee
Michael Lee

Expert Network Defense Engineer

17-Jul-2025

Các Mô Hình Ngôn Ngữ Lớn (LLMs) đang trở nên mạnh mẽ hơn, nhưng chúng vốn có hạn chế trong việc xử lý nội dung tĩnh. Chúng không thể mở các trang web theo thời gian thực, xử lý nội dung được tạo bởi JavaScript, giải mã CAPTCHAs hoặc tương tác với các trang web. Những hạn chế này làm giảm đáng kể khả năng ứng dụng và tiềm năng tự động hóa của AI trong thế giới thực.

Scrapeless hiện đã chính thức ra mắt dịch vụ MCP (Giao thức Ngữ cảnh Mô hình) — một giao diện thống nhất cho phép LLMs truy cập dữ liệu web trực tiếp và thực hiện các tác vụ tương tác. Bài viết này sẽ hướng dẫn bạn về MCP là gì, cách triển khai nó, các cơ chế giao tiếp cơ bản, và cách nhanh chóng xây dựng một tác nhân AI có khả năng tìm kiếm, duyệt web, trích xuất và tương tác với web bằng cách sử dụng Scrapeless.
Scrapeless MCP Server

MCP Là Gì?

Định Nghĩa

Giao thức Ngữ cảnh Mô hình (MCP) là một tiêu chuẩn mở dựa trên JSON-RPC 2.0. Nó cho phép Các Mô Hình Ngôn Ngữ Lớn (LLMs) truy cập các công cụ bên ngoài thông qua một giao diện thống nhất — như chạy các công cụ thu thập dữ liệu web, truy vấn cơ sở dữ liệu SQL, hoặc gọi bất kỳ API REST nào.

Cách Hoạt Động

MCP tuân theo kiến trúc phân lớp, xác định ba vai trò trong sự tương tác giữa LLMs và các nguồn tài nguyên bên ngoài:

  • Khách hàng: Gửi yêu cầu và kết nối với máy chủ MCP.
  • Máy chủ: Nhận và phân tích yêu cầu của khách hàng, chuyển tiếp đến tài nguyên phù hợp (như cơ sở dữ liệu, công cụ thu thập dữ liệu, hoặc API).
  • Tài nguyên: Thực hiện nhiệm vụ được yêu cầu và trả lại kết quả cho máy chủ, mà sau đó chuyền nó lại cho khách hàng.

Thiết kế này cho phép định tuyến nhiệm vụ hiệu quả và kiểm soát quyền truy cập nghiêm ngặt, đảm bảo rằng chỉ có những khách hàng được ủy quyền mới có thể sử dụng các công cụ cụ thể.

Cơ Chế Giao Tiếp

MCP hỗ trợ hai loại giao tiếp chính: giao tiếp cục bộ qua đầu vào/đầu ra tiêu chuẩn (Stdio)giao tiếp từ xa qua HTTP + Sự kiện do máy chủ gửi (SSE). Cả hai đều tuân theo cấu trúc JSON-RPC 2.0 thống nhất, cho phép giao tiếp tiêu chuẩn hóa và có thể mở rộng.

  • Cục bộ (Stdio): Sử dụng các dòng đầu vào/đầu ra tiêu chuẩn. Tuyệt vời cho phát triển cục bộ hoặc khi khách hàng và máy chủ nằm trên cùng một máy. Nó nhanh, nhẹ và rất tốt cho việc gỡ lỗi hoặc quy trình làm việc cục bộ.
  • Từ xa (HTTP + SSE): Các yêu cầu được gửi qua HTTP POST, và các phản hồi theo thời gian thực được phát trực tiếp qua SSE. Chế độ này hỗ trợ các phiên liên tục, kết nối lại, và phát lại tin nhắn — làm cho nó phù hợp với các môi trường dựa trên đám mây hoặc phân tán.

Bằng cách tách biệt vận chuyển khỏi nghĩa của giao thức, MCP có thể linh hoạt thích ứng với các môi trường khác nhau trong khi tối đa hóa khả năng của LLM trong việc tương tác với các công cụ bên ngoài.

Tại Sao MCP Cần Thiết?

Mặc dù LLMs rất giỏi trong việc tạo ra văn bản, nhưng chúng gặp khó khăn với nhận thức và tương tác theo thời gian thực.

LLMs Bị Giới Hạn Bởi Dữ Liệu Tĩnh Và Thiếu Quyền Truy Cập Công Cụ

Phần lớn các mô hình được đào tạo trên các bức ảnh lịch sử của internet, có nghĩa là chúng thiếu kiến thức theo thời gian thực về thế giới. Chúng cũng không thể chủ động liên lạc với các hệ thống bên ngoài do những hạn chế về kiến trúc và bảo mật.

Ví dụ, ChatGPT không thể truy xuất trực tiếp dữ liệu sản phẩm hiện tại từ Amazon. Do đó, giá cả hoặc thông tin tồn kho mà nó cung cấp có thể đã lỗi thời và không đáng tin cậy — thiếu các chương trình khuyến mãi, đề xuất, hoặc thay đổi tồn kho theo thời gian thực.

ChatGPT không có máy chủ MCP

Điều này có nghĩa là trong các kịch bản kinh doanh điển hình như dịch vụ khách hàng, hỗ trợ hoạt động, báo cáo phân tích, và trợ lý thông minh, việc chỉ dựa vào khả năng của các LLM truyền thống là hoàn toàn không đủ.


Năng Lực Cốt Lõi của MCP: Phát Triển Từ “Chat” Đến “Tương Tác”

MCP được tạo ra như một cầu nối kết nối LLMs với thế giới thực. Nó không chỉ giải quyết các thách thức đã đề cập ở trên mà còn trao quyền cho các LLMs với khả năng tác nhân nhiệm vụ thực sự của doanh nghiệp thông qua các giao diện chuẩn hóa, truyền dẫn mô-đun, và hỗ trợ mô hình có thể cắm vào.

Tiêu Chuẩn Mở và Tính Tương Thích Hệ Sinh Thái

Như đã đề cập trước đó, MCP cho phép LLMs gọi các công cụ bên ngoài như công cụ thu thập dữ liệu web, cơ sở dữ liệu, và bộ tạo quy trình làm việc. Nó không liên kết với mô hình, không liên kết với nhà cung cấp, và không liên kết với triển khai. Bất kỳ khách hàng và máy chủ nào tuân thủ MCP đều có thể tự do kết hợp và kết nối với nhau.

Điều này có nghĩa là bạn có thể dễ dàng chuyển đổi giữa Claude, Gemini, Mistral, hoặc các mô hình được lưu trữ cục bộ của riêng bạn trong cùng một giao diện người dùng, mà không cần phát triển thêm.

Giao Thức Vận Chuyển Có Thể Cắm Vào và Thay Thế Mô Hình

MCP hoàn toàn tách rời các phương thức vận chuyển (như stdio và phát trực tiếp HTTP) khỏi logic mô hình, cho phép thay thế linh hoạt trong các môi trường triển khai khác nhau mà không cần sửa đổi logic kinh doanh, kịch bản thu thập dữ liệu, hoặc các hoạt động cơ sở dữ liệu.

Hỗ Trợ Hoạt Động Theo Thời Gian Thực Và Gọi Công Cụ Phức Tạp

MCP không chỉ là một giao diện hội thoại; nó cho phép đăng ký và phối hợp nhiều công cụ bên ngoài khác nhau, bao gồm các công cụ thu thập dữ liệu web, động cơ truy vấn cơ sở dữ liệu, API webhook, chức năng chạy, và nhiều hơn nữa — tạo ra một hệ thống khép kín “ngôn ngữ + tương tác” thực sự.
Ví dụ, khi người dùng hỏi về tài chính của một công ty, LLM có thể tự động kích hoạt truy vấn SQL thông qua MCP, lấy dữ liệu theo thời gian thực và tạo ra một báo cáo tóm tắt.

Đa năng, Như Cổng USB-C

MCP có thể được coi là “cổng USB-C” cho LLM: nó hỗ trợ chuyển đổi đa mô hình và đa giao thức, và có thể kết nối linh hoạt nhiều mô-đun chức năng khác nhau như:

  • Công cụ thu thập dữ liệu từ web (Scrapers)
  • Cổng API bên thứ ba
  • Hệ thống nội bộ như ERP, CRM, Jenkins

Các dịch vụ được cung cấp bởi Máy chủ Scrapeless MCP

Được xây dựng trên tiêu chuẩn MCP mở, Máy chủ Scrapeless MCP kết nối liền mạch các mô hình như ChatGPT, Claude, và công cụ như CursorWindsurf với nhiều khả năng bên ngoài, bao gồm:

  • Tích hợp dịch vụ Google (Tìm kiếm, Chuyến bay, Xu hướng, Học giả, v.v.)
  • Tự động hóa trình duyệt cho điều hướng và tương tác ở cấp độ trang
  • Thu thập dữ liệu từ các trang web động, nặng JS—xuất ra dưới định dạng HTML, Markdown, hoặc ảnh chụp màn hình

Cho dù bạn đang xây dựng một trợ lý nghiên cứu AI, một cộng sự lập trình, hay các tác nhân web tự động, máy chủ này cung cấp ngữ cảnh linh hoạt và dữ liệu thực tế mà quy trình làm việc của bạn cần—mà không bị chặn.

Các công cụ MCP được hỗ trợ

Tên Mô tả
google_search Công cụ tìm kiếm thông tin đa năng.
google_flights Công cụ truy vấn thông tin chuyến bay độc quyền.
google_trends Lấy dữ liệu tìm kiếm đang nổi bật từ Google Trends.
google_scholar Tìm kiếm các tài liệu học thuật trên Google Scholar.
browser_goto Điều hướng trình duyệt đến một URL cụ thể.
browser_go_back Quay lại một bước trong lịch sử trình duyệt.
browser_go_forward Tiến về một bước trong lịch sử trình duyệt.
browser_click Nhấp vào một phần tử cụ thể trên trang.
browser_type Nhập văn bản vào một trường đầu vào cụ thể.
browser_press_key Mô phỏng việc nhấn phím.
browser_wait_for Chờ một phần tử trang cụ thể xuất hiện.
browser_wait Tạm dừng thực thi trong một khoảng thời gian cố định.
browser_screenshot Chụp ảnh màn hình của trang hiện tại.
browser_get_html Lấy toàn bộ HTML của trang hiện tại.
browser_get_text Lấy tất cả văn bản nhìn thấy từ trang hiện tại.
browser_scroll Cuộn đến cuối trang.
browser_scroll_to Cuộn một phần tử cụ thể vào tầm nhìn.
scrape_html Thu thập dữ liệu từ một URL và trả về nội dung HTML đầy đủ.
scrape_markdown Thu thập dữ liệu từ một URL và trả về nội dung dưới định dạng Markdown.
scrape_screenshot Chụp ảnh màn hình chất lượng cao của bất kỳ trang web nào.

Để biết thêm thông tin, vui lòng kiểm tra: Máy chủ Scrapeless MCP

Các thể loại triển khai dịch vụ MCP

Tùy thuộc vào môi trường triển khai và các trường hợp sử dụng, Máy chủ Scrapeless MCP hỗ trợ nhiều chế độ dịch vụ, chủ yếu được chia thành hai loại: triển khai cục bộ và triển khai từ xa.

Thể loại Mô tả Lợi ích Ví dụ
Dịch vụ Cục bộ (Local MCP) Dịch vụ MCP được triển khai trên máy cục bộ hoặc trong một mạng cục bộ, gắn chặt với hệ thống người dùng. Bảo mật dữ liệu cao, truy cập độ trễ thấp, dễ dàng tích hợp với các hệ thống nội bộ như cơ sở dữ liệu cục bộ, API riêng, và mô hình ngoại tuyến. Kích hoạt scraper cục bộ, suy diễn mô hình cục bộ, tự động hóa kịch bản cục bộ.
Dịch vụ Từ xa (Remote MCP) Dịch vụ MCP được triển khai trên đám mây, thường được truy cập dưới dạng dịch vụ SaaS hoặc API từ xa. Triển khai nhanh chóng, khả năng mở rộng linh hoạt, hỗ trợ đồng thời quy mô lớn, phù hợp với việc gọi các mô hình từ xa, các API bên thứ ba, dịch vụ thu thập dữ liệu trên đám mây, v.v. Proxy thu thập dữ liệu từ xa, dịch vụ mô hình Claude/Gemini trên đám mây, tích hợp công cụ OpenAPI.

Nghiên cứu trường hợp Máy chủ Scrapeless MCP

Trường hợp 1: Tương tác web tự động và trích xuất dữ liệu với Claude

Sử dụng Trình duyệt Scrapeless MCP, Claude có thể thực hiện các tác vụ phức tạp như điều hướng web, nhấp chuột, cuộn và lấy dữ liệu thông qua các lệnh hội thoại, với bản xem trước thời gian thực của kết quả tương tác web thông qua phiên trực tiếp.

Trang mục tiêu: https://www.scrapeless.com/en

Tương tác web tự động và trích xuất dữ liệu với Claude

Trường hợp 2: Vượt qua Cloudflare để lấy nội dung trang mục tiêu

Sử dụng dịch vụ Trình duyệt Scrapeless MCP, trang Cloudflare được truy cập tự động, và sau khi quá trình hoàn tất, nội dung trang được trích xuất và trả về ở định dạng Markdown.

Trang mục tiêu: https://www.scrapingcourse.com/cloudflare-challenge

Vượt qua Cloudflare để lấy nội dung trang mục tiêu

Trường hợp 3: Trích xuất nội dung trang được hiển thị động và ghi vào tệp

Sử dụng API Toàn cầu Scrapeless MCP, nội dung được hiển thị bằng JavaScript của trang mục tiêu ở trên được thu thập, xuất ra định dạng Markdown và cuối cùng ghi vào tệp địa phương có tên text.md.

Trang mục tiêu: https://www.scrapingcourse.com/javascript-rendering

Trích xuất nội dung trang được hiển thị động và ghi vào tệp

Trường hợp 4: Trích xuất SERP tự động

Sử dụng Máy chủ Scrapeless MCP, truy vấn từ khóa “web scraping” trên Tìm kiếm Google, lấy 10 kết quả tìm kiếm đầu tiên (bao gồm tiêu đề, liên kết và tóm tắt), và ghi nội dung vào tệp có tên serp.text.

Trích xuất SERP tự động

Kết luận

Hướng dẫn này chứng minh cách MCP mở rộng LLM truyền thống thành các Đại lý AI với khả năng tương tác web. Với Máy chủ Scrapeless MCP, các mô hình có thể đơn giản gửi yêu cầu để:

  • Lấy nội dung động theo thời gian thực từ bất kỳ trang web nào (bao gồm HTML, Markdown hoặc hình chụp màn hình).
  • Vượt qua các cơ chế chống thu thập dữ liệu như Cloudflare và tự động xử lý các thử thách CAPTCHA.
  • Kiểm soát môi trường trình duyệt thực để thực hiện các quy trình tương tác hoàn chỉnh như điều hướng, nhấp chuột và cuộn.

Nếu bạn muốn xây dựng một hạ tầng truy cập dữ liệu web có thể mở rộng, ổn định và tuân thủ cho các ứng dụng AI, Máy chủ Scrapeless MCP cung cấp một bộ công cụ lý tưởng để giúp bạn nhanh chóng phát triển các đại lý AI thế hệ tiếp theo với các khả năng “tìm kiếm + thu thập + tương tác”.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục