Cách thêm Web Scraping vào Google Antigravity: Hướng dẫn tích hợp MCP không lỗi.
Senior Web Scraping Engineer
Những điểm chính:
- Một khối cấu hình là toàn bộ sự tích hợp. Google Antigravity hỗ trợ Giao thức Ngữ cảnh Mô hình. Chỉ cần đặt một khối
scrapelessđơn lẻ vào~/.gemini/antigravity/mcp_config.jsonvà tác nhân sẽ có một trình duyệt đám mây an toàn, proxy dân cư ở hơn 195 quốc gia, một trình thu thập dữ liệu SERP Google, một trình thu thập dữ liệu xu hướng Google và các trợ lý trang HTML/Markdown/Ảnh chụp màn hình — tất cả đều có thể truy cập thông qua @-mention hoặc các yêu cầu bằng ngôn ngữ tự nhiên trong bảng trò chuyện Antigravity. - Tác nhân ngừng bị chặn. Antigravity cung cấp các công cụ lập trình mạnh mẽ nhưng không bao gồm một bề mặt thu thập dữ liệu an toàn ngay từ đầu. Đối với các trang web có bảo vệ chống bot có ý nghĩa (Cloudflare Turnstile, Akamai Bot Manager, danh sách đánh giá IP), SPAs chỉ có JavaScript hoặc các danh sách bị giới hạn địa lý, trình duyệt đám mây là thứ mang lại yêu cầu tới phản hồi có thể sử dụng. Định tuyến qua Trình duyệt Thu thập Dữ liệu Không có rác thay thế việc kết xuất JavaScript ở phía đám mây, egress proxy dân cư và nhận dạng chống phát hiện trên mỗi phiên.
- Hơn 15 công cụ MCP, một không gian tên. Các phần tử cơ bản của trình duyệt (
browser_create,browser_goto,browser_get_html,browser_get_text,browser_click,browser_type,browser_press_key,browser_scroll,browser_screenshot,browser_snapshot,browser_close), các trợ lý trang một lần (scrape_html,scrape_markdown,scrape_screenshot), và các công cụ dữ liệu Google (google_search,google_trends). Máy lập kế hoạch của tác nhân tạo ra các công cụ cần thiết cho mỗi lượt. - Stdio là mặc định; có thể phát trực tuyến HTTP là con đường lưu trữ đám mây. Chế độ Stdio chạy
npx scrapeless-mcp-servernhư một quy trình con của Antigravity và là mặc định đúng cho một trạm làm việc của nhà phát triển. Chế độ có thể phát trực tuyến HTTP định hướng tác nhân đếnhttps://api.scrapeless.com/mcpvà là mặc định đúng cho Antigravity chạy trong một container phát triển lưu trữ, một không gian làm việc từ xa, hoặc bất kỳ nơi nàonpxkhông thể khởi động đáng tin cậy. - Không phụ thuộc vào mô hình. Antigravity định tuyến các yêu cầu thông qua Gemini 3 Pro và Gemini 3 Flash, với Claude Sonnet 4.6, Claude Opus 4.6 và GPT-OSS có sẵn như các backend thay thế thông qua cùng một vòng lặp tác nhân. Tích hợp Scrapeless MCP chạy giống hệt nhau trên tất cả chúng — giao thức là hợp đồng, không phải mô hình.
- Tồn tại cùng với phần còn lại của stack MCP Antigravity. Khối
scrapelessngồi cạnh Context-7, Tư duy Tuần tự, BigQuery, AlloyDB, hoặc bất kỳ máy chủ MCP nào khác đã được kết nối sẵn. Máy lập kế hoạch của Antigravity định hướng các công cụ bằng cách @-mention hoặc bằng cách khớp mô tả; bề mặt công cụ không va chạm. - Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm thời gian chạy Trình duyệt Thu thập Dữ liệu miễn phí — đăng ký tại app.scrapeless.com. Giá cả đầy đủ ở scrapeless.com/en/pricing.
Giới thiệu: tác nhân chỉ hữu ích như khả năng truy cập vào web trực tiếp
Google Antigravity ra mắt vào tháng 11 năm 2025 như là IDE ưu tiên tác nhân của Google — một nhánh của Visual Studio Code được xây dựng xung quanh Gemini 3 Pro và Gemini 3 Flash, với Claude Sonnet 4.6, Claude Opus 4.6 và GPT-OSS có sẵn như các backend thay thế. Lời hứa rất rõ ràng: nhà phát triển đóng vai trò kiến trúc sư, tác nhân thực hiện công việc xây dựng. Đối với sinh mã, tái cấu trúc, tra cứu tài liệu và kiểm tra cơ sở dữ liệu hoạt động như đã quảng cáo — các công cụ tích hợp của Antigravity bao phủ các chỉnh sửa tệp, lệnh đầu cuối, các máy chủ Workspace MCP đã bao gồm, và vòng lặp lập kế hoạch của chính tác nhân.
Ngay khi công việc cần dữ liệu web công khai hiện tại, bức tranh trở nên mỏng hơn. Lấy dữ liệu web mặc định của tác nhân trả về cùng một shell JavaScript mà bất kỳ yêu cầu HTTP ẩn danh nào cũng sẽ nhận được, và trên các trang thương mại, DOM đã kết xuất nằm sau các thách thức chống bot, SERP bị rào cản proxy dân cư và các SPAs chỉ có JS mà không có bất kỳ cách nào để lấy mà không có sự trợ giúp. Một yêu cầu như "mở trang giá của đối thủ này và lấy lưới kế hoạch" ngừng có tính xác định khi trang web mục tiêu nằm sau Cloudflare Turnstile.
Bài viết này kết nối Máy chủ MCP Không có rác vào Antigravity thông qua một khối cấu hình duy nhất. Sau khi kết nối, tác nhân có hơn 15 công cụ MCP được bản đồ đến trình duyệt đám mây an toàn, một trình thu thập dữ liệu Tìm kiếm Google, một trình thu thập dữ liệu Xu hướng Google, và các trợ lý trang một lần. Tác nhân chọn công cụ nào để gọi trong mỗi lượt; trình duyệt đám mây xử lý việc kết xuất JS, egress proxy dân cư, và nhận dạng chống phát hiện; IDE vẫn giữ quyền sở hữu sinh mã, cây tệp, và đầu cuối. Để có cùng bề mặt Scrapeless thông qua các khách hàng MCP khác — Claude Desktop, Cursor, OpenAI Codex CLI, Gemini CLI, Claude Code, VS Code + GitHub Copilot Chat — hãy xem hướng dẫn về máy chủ MCP bổ trợ.
Những gì bạn có thể làm với nó
- Nghiên cứu API và thư viện trực tiếp trong IDE. Yêu cầu tác nhân lấy trang tài liệu hiện tại cho một thư viện thông qua
scrape_markdownvà lý luận dựa trên văn bản đã kết xuất thay vì dựa trên bộ nhớ cắt đào tạo của API. - Ảnh chụp mức giá của đối thủ trong không gian làm việc. Kéo các URL của đối thủ vào cuộc trò chuyện của đại lý; nhận lại các hàng giá cấu trúc mà đại lý có thể dán vào tệp so sánh cùng với mã mà tiêu thụ chúng.
- Nhập dữ liệu công khai vào dự án đang được xây dựng. Để đại lý quét danh sách thư mục, trích xuất các bản ghi đã gõ, và ghi chúng ngay vào một cố định JSON, một hạt giống SQL, hoặc một kiểu TypeScript bên cạnh lớp mô hình.
- Tín hiệu SERP và xu hướng nhận thức theo vùng. Sử dụng
google_searchvàgoogle_trendstừ bên trong vòng lặp của đại lý để cung cấp các tiêu chí tính năng, sao chép A/B, hoặc mẫu nội dung với bằng chứng cụ thể cho từng khu vực. - Tài liệu Markdown cho RAG và tài liệu dự án.
scrape_markdowntrả lại các trang nhà xuất bản dưới dạng markdown sạch mà đại lý có thể chia nhỏ, nhúng, hoặc lưu trữ như ngữ cảnh cục bộ của dự án. - Đánh giá trải nghiệm người dùng dựa trên ảnh chụp màn hình.
scrape_screenshotvàbrowser_screenshotchụp các trang đã được kết xuất cho việc so sánh hình ảnh, tham khảo bố cục, hoặc đầu vào thiết kế mà đại lý có thể đính kèm vào cuộc trò chuyện. - Đại lý nhiều bước có thể chạy lại theo yêu cầu trên IDE. Một kế hoạch chạy từ
google_search→ nhấp vào kết quả hàng đầu → trích xuất các bản ghi đã gõ → viết tóm tắt tệp thực hiện từ đầu đến cuối trong một phiên đại lý Antigravity và phát lại một cách sạch sẽ mỗi khi lời nhắc được phát lại.
Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách quyền riêng tư của trang web. Nội dung trong bài viết này chỉ để mục đích minh họa.
Tại sao lại là Scrapeless MCP Server
Scrapeless MCP Server là bề mặt cấp giao thức ở phía trước của Scrapeless Scraping Browser — một trình duyệt đám mây tùy chỉnh, chống phát hiện được thiết kế cho các đại lý AI — cộng với các công cụ dữ liệu Scrapeless (Tìm kiếm Google, Xu hướng Google, các trợ giúp trích xuất cấp trang). Đối với Google Antigravity cụ thể, nó mang lại:
- Kết xuất JavaScript ở phía đám mây. Trình duyệt đám mây là Chromium đầy đủ với trang đã được hydrat hóa trước khi trích xuất, vì vậy SPAs, các nguồn cấp dữ liệu cuộn vô hạn, và các bảng điều khiển tải chậm đều là mục tiêu hàng đầu cho
browser_goto+browser_get_html. - Proxy cư dân ở hơn 195 quốc gia. Các truy vấn theo khu vực địa lý trả về các danh sách mà người dùng địa phương sẽ thấy. Khu vực proxy được thiết lập trên tài khoản Scrapeless; lựa chọn khu vực theo truy vấn được hiển thị thông qua CLI
scrapeless-scraping-browsercho các quy trình làm việc cần nó. - Phát hiện chống lại dấu vân tay trên mọi phiên. UA, múi giờ, ngôn ngữ, độ phân giải màn hình, WebGL và canvas được ngẫu nhiên hóa theo phiên, vì vậy các phiên cuộn dài được trình bày giống hệt như lưu lượng truy cập tự nhiên.
- Bảo tồn phiên. ID tác vụ
browser_createđược sử dụng lại trong các cuộc gọibrowser_*tiếp theo trong cùng một phiên đại lý; cookie, vị trí cuộn và lịch sử điều hướng đều nằm trong một phiên trình duyệt đám mây. - Một không gian tên MCP. Mọi hoạt động mà đại lý cần đều là một lệnh công cụ duy nhất — có thể khám phá từ bảng MCP Servers của Antigravity, được xác thực theo sơ đồ bởi giao thức, và có thể định tuyến qua
@scrapeless. - Thời gian chạy miễn phí cho các tài khoản mới. Nhận một khóa API trên kế hoạch miễn phí tại app.scrapeless.com. Toàn bộ bề mặt công cụ MCP được tài liệu hóa tại github.com/scrapeless-ai/scrapeless-mcp-server và tài liệu nền tảng nằm tại docs.scrapeless.com.
Các yêu cầu tiên quyết
- Google Antigravity đã được cài đặt. Có sẵn trên macOS, Windows và Linux với mức miễn phí cùng các kế hoạch trả phí Pro và Ultra — tải xuống từ antigravity.google và đăng nhập bằng tài khoản Google.
- Một tài khoản Scrapeless và khóa API — đăng ký tại app.scrapeless.com và sao chép khóa từ Cài đặt → Quản lý Khóa API.
- Node.js 18 hoặc mới hơn trên máy trạm (Antigravity sử dụng
npxđể khởi động máy chủ MCP stdio). - Hiểu biết cơ bản về chỉnh sửa JSON — cấu hình MCP của Antigravity là một đối tượng
mcpServersphẳng.
Cài đặt
Cài đặt gồm năm bước con. Dừng lại sau bước 5 để xác nhận kết nối; phần còn lại của bài viết giải thích cách điều khiển các công cụ từ cuộc trò chuyện.
1. Nhận khóa API Scrapeless của bạn
Đăng ký tại app.scrapeless.com, mở bảng điều khiển và từ Cài đặt → Quản lý Khóa API tạo một khóa. Sao chép giá trị — nó sẽ được đưa vào cấu hình MCP ở bước 3.
2. Mở cấu hình MCP của Antigravity
Hai con đường tương đương:
Đường dẫn UI — mở một phiên đại lý trong Antigravity, nhấp vào menu … Menu tùy chọn khác ở trên cùng của bảng điều khiển đại lý, chọn MCP Servers, nhấp vào Quản lý MCP Servers, sau đó Xem cấu hình thô. Antigravity sẽ mở mcp_config.json trong ngăn chỉnh sửa.
Chỉnh sửa tệp trực tiếp — mở mcp_config.json tại đường dẫn theo phạm vi người dùng:
- macOS:
~/.gemini/antigravity/mcp_config.json - Linux:
~/.gemini/antigravity/mcp_config.json - Windows:
%USERPROFILE%\.gemini\antigravity\mcp_config.json
Cấu hình MCP của Antigravity hiện tại là toàn cầu — đối tượngmcpServersgiống nhau áp dụng cho mọi không gian làm việc. Các mục MCP theo từng không gian làm việc đang được theo dõi như một yêu cầu tính năng trên diễn đàn phát triển của Antigravity; cho đến khi điều đó xảy ra, khốiscrapelessbên dưới sẽ vận chuyển một lần và áp dụng khắp nơi.
3. Thêm máy chủ Scrapeless MCP (chế độ stdio)
Dán khối scrapeless dưới mcpServers và thay thế khóa API từ bước 1:
json
{
"mcpServers": {
"scrapeless": {
"command": "npx",
"args": ["-y", "scrapeless-mcp-server"],
"env": {
"SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
}
}
}
}
Lưu tệp. Quay lại Antigravity, trở lại Quản lý máy chủ MCP và nhấn vào điều khiển làm mới — mục scrapeless sẽ xuất hiện với danh sách công cụ của nó (browser_*, google_search, google_trends, scrape_html, scrape_markdown, scrape_screenshot) đã được điền. Khi chạy lần đầu, npx -y scrapeless-mcp-server sẽ tải gói; các lần khởi động tiếp theo sẽ sử dụng phiên bản đã lưu trong bộ nhớ cache.
Nếu Antigravity đã quản lý các máy chủ MCP khác, hãy thêm mục scrapeless vào đối tượng mcpServers hiện có — không ghi đè tệp. Thứ tự không quan trọng; kế hoạch phát hiện công cụ theo mô tả, không phải theo vị trí.
4. Hoặc sử dụng chế độ streamable HTTP (đối tượng từ xa hoặc ràng buộc trong container)
Đối với Antigravity chạy trong một container phát triển được lưu trữ, một không gian làm việc từ xa, một sandbox CI, hoặc bất kỳ đâu mà npx không thể giữ quy trình con lâu dài một cách đáng tin cậy, hãy thay thế khối stdio bằng điểm cuối HTTP streamable:
json
{
"mcpServers": {
"scrapeless": {
"type": "streamable-http",
"url": "https://api.scrapeless.com/mcp",
"headers": {
"x-api-token": "YOUR_SCRAPELESS_KEY"
}
}
}
}
Khóa YOUR_SCRAPELESS_KEY giống nhau cho cả hai chế độ. HTTP streamable là mặc định đúng khi máy chủ bị ràng buộc bởi quy tắc sandbox; stdio là mặc định đúng ở những nơi khác.
5. Xác minh kết nối
Trong một phiên tác nhân Antigravity mới, nhập:
"@scrapeless mở https://example.com và cho tôi biết tiêu đề trang."
Tác nhân sẽ gọi browser_create, sau đó browser_goto, sau đó browser_get_text (hoặc browser_get_html), và phản hồi với "Example Domain". Nếu điều đó trả về sạch, máy chủ MCP đã được kết nối, khóa API hợp lệ và trình duyệt đám mây có thể truy cập.
Nếu không, những lỗi và cách khắc phục lần đầu phổ biến là:
| Triệu chứng | Nguyên nhân có thể | Cách khắc phục |
|---|---|---|
scrapeless không được liệt kê trong bảng MCP |
Cấu hình không được tải | Nhấp vào điều khiển làm mới trong Quản lý máy chủ MCP; nếu vẫn không xuất hiện, kiểm tra lại đường dẫn JSON và đảm bảo tệp có thể phân tích |
Xác thực thất bại / 401 từ máy chủ |
Khóa API sai hoặc đã hết hạn | Sao chép lại từ bảng điều khiển, dán vào env.SCRAPELESS_KEY, khởi động lại Antigravity |
npx treo khi gọi lần đầu |
Mạng npm chậm hoặc thời gian chờ đăng ký | Chạy npx -y scrapeless-mcp-server một lần trong terminal để lưu trước gói, sau đó khởi động lại Antigravity |
Lỗi initialize response / kết nối đã đóng trong quá trình khởi động MCP |
Dữ liệu không phải JSON được ghi vào stdout trong khi bắt tay JSON-RPC | Sử dụng phiên bản xây dựng scrapeless-mcp-server hiện tại (ghi vào stderr, JSON-RPC vào stdout) và xác nhận không có trình bao shell nào đang chèn băng rôn khởi động |
Cuộc gọi công cụ trả về HTML Truy cập bị từ chối |
Hồ bơi proxy trả về một IP bị đánh dấu khi phân bổ | Yêu cầu tác nhân gọi browser_close sau đó browser_create lại; các lần phân bổ tiếp theo sẽ thành công |
Cách bạn thực sự sử dụng điều này: nhắc nhở tác nhân Antigravity của bạn
Sau khi cài đặt, tác nhân sở hữu vòng lặp khám phá → trích xuất. Máy chủ MCP đưa cho Antigravity một danh sách công cụ có kiểu; tác nhân đọc các mô tả công cụ và tạo ra các cuộc gọi lần lượt dựa trên nhắc nhở. Không có tools.json nào để viết và không có cuộc gọi MCP thủ công nào để phát hành từ phía IDE.
Hai cách để định hình một yêu cầu đến Scrapeless:
- Đề cập đến máy chủ.
@scrapeless …cho tác nhân của Antigravity biết thiên lệch về các công cụ Scrapeless cho lượt đó. Hữu ích khi nhiều máy chủ MCP cung cấp các khả năng chồng chéo (ví dụ: nhiều máy chủ cung cấp một công cụ kiểufetch). - Tên công cụ ngầm định. Các cụm từ như "tìm kiếm Google cho…", "kết xuất trang tại…", hoặc "trích xuất URL đó dưới dạng markdown" sẽ chuyển đến
google_search,browser_*, vàscrape_markdownkhi máy chủ đã được kết nối, mà không cần đề cập @.
Các nhắc nhở bạn có thể dán
| Bạn nhập | Tác nhân sẽ làm gì |
|---|---|
"@scrapeless tìm kiếm Google cho vector database benchmarks 2026 và trả về 10 kết quả hàng đầu dưới dạng JSON." |
google_search → danh sách kết quả đã gõ. |
"@scrapeless kết xuất trang tài liệu React tại https://react.dev/learn/synchronizing-with-effects và cho tôi markdown." |
scrape_markdown → trang nhà xuất bản dưới dạng markdown. |
"@scrapeless mở https://pricing.example.com, cuộn bảng kế hoạch, và trả về tên, giá, và danh sách tính năng dưới dạng JSON." |
browser_create → browser_goto → browser_scroll → browser_get_html → trích xuất đã gõ. |
"Kéo các chủ đề tìm kiếm đang thịnh hành cho công cụ phát triển ở Mỹ từ Google Trends." |
google_trends. |
"@scrapeless chụp màn hình toàn trang của https://example.com/landing và lưu nó bên cạnh landing.tsx." |
scrape_screenshot → ghi vào thư mục làm việc. |
"Mở https://www.google.com/search?q=mortgage+rates và trả về các thẻ SERP." |
Khu vực mặc định tài khoản điều khiển lưu lượng proxy; ghim một khu vực khác bằng cách chuyển đổi khối API key (xem FAQ). |
| "Đối với mỗi kết quả trong tìm kiếm Google trước đó, hiển thị trang dưới dạng markdown và tóm tắt nó trong hai câu." | Kết nối google_search → scrape_markdown × N → tóm tắt LLM. |
"Chụp ảnh trang chủ của https://example.com và báo cáo cây truy cập." |
browser_snapshot. |
Ví dụ đã làm: trích xuất trang giá trong Antigravity
Bạn gõ:
"@scrapeless mở
https://example-saas.com/pricing, cuộn lưới gói đến cuối, và trả về tên, giá, và tính năng theo từng gói dưới dạng JSON. Lưu kết quả vàopricing.jsontrong thư mục mở."
Kế hoạch của tác nhân (bằng tiếng Anh đơn giản):
- Gọi
browser_createđể tạo một phiên duyệt web đám mây. - Gọi
browser_gotovới URL giá. - Gọi
browser_wait_forđến điểm đánh dấu thẻ kế hoạch để việc trích xuất chạy trên DOM đã được tải hơn là chỉ trên shell SPA. - Gọi
browser_scrollđể hiển thị các cấp độ dưới gấp, sau đó gọibrowser_get_html. - Phân tích các thẻ gói thành một mảng JSON; coi bất kỳ trường nào không có trên thẻ là
nullthay vì thất bại trong việc trích xuất. - Gọi
browser_closevớisessionIdđược trả về bởibrowser_create. - Ghi mảng vào
pricing.jsonbằng cách sử dụng công cụ file tích hợp của Antigravity.
Những gì bạn nhận được (hình dạng minh họa):
json
[
{
"name": "Starter",
"price": "$0 / month",
"features": ["1 ghế", "1,000 sự kiện/tháng", "Hỗ trợ cộng đồng"]
},
{
"name": "Pro",
"price": "$29 / month",
"features": ["10 ghế", "100K sự kiện/tháng", "Hỗ trợ qua email", "Tên miền tùy chỉnh"]
},
{
"name": "Business",
"price": "Liên hệ với bộ phận bán hàng",
"features": ["Ghế không giới hạn", "Khối lượng sự kiện tùy chỉnh", "SLA", "SSO/SAML"]
}
]
// Sơ đồ phản ánh những gì tác nhân đưa ra khi được yêu cầu trích xuất một bảng giá.
// Giá trị các trường là các mẫu minh họa.
Antigravity lưu pricing.json vào cây thư mục làm việc và hiển thị một dấu vết theo từng bước trong cuộc trò chuyện để mỗi cuộc gọi công cụ MCP đều có thể kiểm toán.
Định hình câu lệnh: kiểm soát những gì sẽ trả lại
| Cách diễn đạt | Hiệu ứng |
|---|---|
| "…trả về JSON" / "…dưới dạng markdown" | Định dạng đầu ra. |
| "…các trường: chỉ tên, giá" | Hạn chế việc trích xuất. |
"…và lưu nó vào <path> trong thư mục làm việc" |
Kích hoạt công cụ file tích hợp của Antigravity sau khi trích xuất. |
| "…nhấp vào từng thẻ trước khi trích xuất" | Kích hoạt một browser_click cho mỗi dòng + trích xuất lại. |
| "…sử dụng ảnh chụp màn hình của trang nếu việc trích xuất HTML thất bại" | Quay lại với scrape_screenshot và trích xuất đa phương thức. |
| "…thử lại một lần nếu phản hồi đầu tiên rỗng" | Kích hoạt browser_close + thử lại browser_create trên một phiên mới. |
Lấy khóa API của bạn trên gói miễn phí: app.scrapeless.com
Bề mặt công cụ MCP của Scrapeless
Danh sách công cụ đầy đủ mà Antigravity phát hiện khi máy chủ scrapeless kết nối:
| Công cụ | Mục đích |
|---|---|
browser_create |
Tạo một phiên duyệt web đám mây, trả về sessionId. |
browser_goto |
Điều hướng đến một URL trong phiên hiện tại. |
browser_wait_for |
Chặn cho đến khi một selector được hiển thị. |
browser_wait |
Ngủ trong một khoảng thời gian (ms). |
browser_get_html |
Trả về DOM đã được hiển thị dưới dạng tải trọng văn bản. |
browser_get_text |
Trả về văn bản trang có thể nhìn thấy. |
browser_snapshot |
Trả về cây truy cập của trang hiện tại. |
browser_click |
Nhấp vào một selector. |
browser_type |
Nhập vào một trường. |
browser_press_key |
Kích hoạt sự kiện bàn phím (Tab, Enter, End, PageDown, …). |
browser_scroll |
Cuộn tài liệu hiện tại. |
browser_scroll_to |
Cuộn đến tọa độ tuyệt đối (x, y). |
browser_screenshot |
Chụp ảnh màn hình của trang hiện tại. |
browser_go_back / browser_go_forward |
Lịch sử điều hướng. |
browser_close |
Giải phóng phiên duyệt web đám mây (cần sessionId — tham số phải là camelCase). |
scrape_html |
Truy xuất một URL một lần, trả về HTML đã được hiển thị (không cần phiên). |
scrape_markdown |
Truy xuất một URL một lần, trả về markdown sạch. |
scrape_screenshot |
Chụp màn hình một URL một lần. |
google_search |
Trình thu thập SERP, trả về các dòng kết quả đã nhập. |
google_trends |
Tải trọng xu hướng cho một chủ đề trong một khu vực. |
Các công cụ browser_* chia sẻ trạng thái qua sessionId được trả về bởi browser_create. Các công cụ scrape_* và Google là không trạng thái và định tuyến qua API Scrapeless trực tiếp mà không cần tạo một phiên. Tham số công cụ sử dụng camelCase trên toàn bộ bề mặt (sessionId, proxyCountry).
Năm quy trình tạo ra lợi nhuận cho tích hợp
Mỗi khối dưới đây là một quy trình theo yêu cầu bên trong Antigravity. Đại diện chọn công cụ theo lượt; máy chủ MCP thực hiện việc hiển thị, làm proxy và xử lý SERP.
1. Tín hiệu SERP và xu hướng trực tiếp cho công việc tính năng
Văn bản của cờ tính năng thường phụ thuộc vào những gì người dùng hiện đang tìm kiếm. Hãy yêu cầu đại diện gọi google_trends cho chủ đề trong khu vực mục tiêu, sau đó google_search cho các thuật ngữ chính, rồi ghi kết quả vào một tệp fixture mà ứng dụng đang chạy sử dụng. Toàn bộ quy trình diễn ra trong một lượt Antigravity và làm mới khi yêu cầu được phát lại.
2. Theo dõi giá cả của đối thủ trong một tệp so sánh
Thả một danh sách các URL giá cả của đối thủ vào cuộc trò chuyện và yêu cầu đại diện trích xuất tên kế hoạch, giá cả và các tính năng nổi bật mỗi trang, loại bỏ trùng lặp theo kế hoạch, và ghi bảng hợp nhất vào competitors.md trong không gian làm việc. Các lần chạy tiếp theo so sánh với ảnh chụp trước đó và chỉ cập nhật các hàng đã thay đổi.
3. Danh sách khách hàng tiềm năng từ danh bạ công khai vào dự án
Đối với các mẫu tạo khách hàng tiềm năng, đại diện đi qua một danh bạ công khai (danh sách các nhà cung cấp phần mềm, doanh nghiệp địa phương hoặc chuyên gia có giấy phép), gọi browser_goto cho mỗi trang chi tiết, trích xuất các hàng liên hệ, và ghi các bản ghi dưới dạng seed.sql hoặc leads.json bên cạnh lớp mô hình. Xuất cảnh từ proxy dân cư và việc hiển thị JS diễn ra ở lớp trình duyệt đám mây.
4. Tập hợp RAG từ các trang nhà xuất bản
Đối với một quy trình nhúng đang được xây dựng bên trong Antigravity, đại diện đi qua danh sách URL hạt giống, gọi scrape_markdown cho mỗi trang, chia markdown thành các khối, và ghi mỗi cặp khối + URL vào corpus.jsonl. Vì markdown đã sạch sẽ, ranh giới khối rơi vào tiêu đề và đoạn văn thay vì giữa thẻ.
5. Tài sản kiểm tra hình ảnh
Đối với việc tái cấu trúc UI, hãy yêu cầu đại diện chụp toàn bộ trang scrape_screenshot của môi trường thử nghiệm và sản xuất cho mọi trang trong routes.ts, sau đó so sánh các cặp. Các ảnh chụp trở lại dưới dạng tệp trong không gian làm việc; sự so sánh tồn tại trong cuộc trò chuyện.
Những điều cần biết trước khi đi vào sản xuất
- Kỷ luật stdout rất quan trọng. Tần số MCP sử dụng stdout cho JSON-RPC. Một máy chủ ghi văn bản không phải JSON vào stdout sẽ phá vỡ buổi bắt tay. Phiên bản hiện tại của
scrapeless-mcp-serverghi nhật ký vào stderr; nếu một nhánh tùy chỉnh đang được sử dụng, hãy kiểm tra địa điểm ghi nhật ký. - Kiểm soát khu vực trên mỗi yêu cầu không nằm trên giao diện MCP. Trình duyệt đám mây định tuyến qua vùng đã định cấu hình của tài khoản Scrapeless. Các quy trình cần định vị khu vực theo từng truy vấn (kết quả US so với DE so với JP) gọi CLI
scrapeless-scraping-browservới--proxy-countryhoặc giữ nhiều khóa API cho các khu vực mặc định khác nhau. - Cấu hình MCP theo không gian làm việc hiện vẫn chưa được hỗ trợ trong Antigravity. Cấu hình
mcpServerstại~/.gemini/antigravity/mcp_config.jsonlà toàn cầu. Các mục MCP theo phạm vi dự án là một yêu cầu chức năng đang được theo dõi trên diễn đàn nhà phát triển Antigravity; cho đến khi đó, cùng một khốiscrapelessáp dụng cho mọi không gian làm việc. - Đồng thời. Giữ ≤ 3 phiên đồng thời trên mỗi máy chủ để có các chạy ổn định. Đối với các tác vụ theo lô cần phân tán cao hơn, điều khiển CLI từ một nhóm công nhân thay vì phát hành các cuộc gọi MCP song song từ một đại diện duy nhất.
- Hình dạng phản hồi MCP. Phản hồi công cụ trở lại dưới dạng
content[0].text(văn bản thuần túy). Các công cụ dữ liệu không trạng thái trả về văn bản (google_search,google_trends,scrape_html,scrape_markdown) thêm tiền tốResponse:\n\ntrước thân; kế hoạch của Antigravity tự động xử lý tiền tố, nhưng các tập lệnh tùy chỉnh phân tích phản hồi thô cần phải loại bỏ nó.scrape_screenshottrả về nhị phân hình ảnh trực tiếp. Các công cụbrowser_*trả về văn bản của chúng mà không có tiền tố.
Kết luận: mở rộng tầm với của đại diện Antigravity của bạn trên web công khai
Kết nối Máy chủ MCP Scrapeless vào Antigravity rút gọn thành một khối JSON tại ~/.gemini/antigravity/mcp_config.json và một lần làm mới bảng điều khiển MCP. Sau đó, đại diện có một trình duyệt đám mây mạnh mẽ, xuất khẩu từ proxy dân cư, một công cụ thu thập dữ liệu Google SERP, một công cụ thu thập dữ liệu Xu hướng, và các trợ giúp HTML/Markdown/Ảnh chụp nhanh một lần — tất cả đều có thể tiếp cận thông qua @-mention hoặc yêu cầu bằng ngôn ngữ tự nhiên. IDE tiếp tục điều khiển việc sinh mã, cây tệp và bảng điều khiển; trình duyệt đám mây giữ cho đại diện trên các trang thực, được hiển thị.
Để có bề mặt Scraping không có lỗi tương tự qua các khách hàng MCP khác - Claude Desktop, Cursor, OpenAI Codex CLI, Gemini CLI, Claude Code, VS Code + GitHub Copilot Chat - hãy xem hướng dẫn máy chủ MCP cho Google Maps. Đối với các bề mặt tác nhân ưu tiên đường dẫn CDP thô hơn MCP, hãy xem bài viết tích hợp Hermes. Antigravity cung cấp một gói miễn phí bên cạnh các gói Pro và Ultra trả phí; Scrapeless bao gồm thời gian chạy Scraping Browser miễn phí trên các tài khoản mới, với các con đường nâng cấp tại scrapeless.com/en/pricing. Mô hình vẫn nhất quán trên mọi bề mặt tác nhân: ghim phương thức truyền tải đúng cho host, chụp ảnh hoặc kết xuất trước khi trích xuất, giữ cho phiên làm việc xuyên suốt các lượt nhiều bước, và coi các trường không có là có thể null.
Sẵn sàng để Xây dựng Quy trình Dữ liệu Điện tử AI của Bạn?
Tham gia cộng đồng của chúng tôi để nhận một gói miễn phí và kết nối với các nhà phát triển đang xây dựng quy trình dữ liệu dùng Antigravity trên Scrapeless: Discord · Telegram.
Đăng ký tại app.scrapeless.com để nhận thời gian chạy Scraping Browser miễn phí, và điều chỉnh các mô hình ở trên cho các không gian làm việc, khu vực và trang mà tác nhân Antigravity của bạn cần.
Câu hỏi thường gặp
Q1: Phiên bản Antigravity nào hỗ trợ MCP?
Hỗ trợ MCP được phát hành trong bản xem trước công khai tại thời điểm ra mắt vào tháng 11 năm 2025. Bất kỳ phiên bản Antigravity hiện tại nào trên macOS, Windows hoặc Linux đều hiển thị mục MCP Servers trong menu … của bảng điều khiển tác nhân và đọc mcp_config.json từ ~/.gemini/antigravity/.
Q2: Việc cào dữ liệu với Antigravity + Scrapeless có hợp pháp không?
Việc cào dữ liệu công khai thường được phép ở hầu hết các khu vực pháp lý, nhưng quy tắc thay đổi tùy theo quốc gia và theo điều khoản dịch vụ của trang web. Xem xét Điều khoản Dịch vụ của trang mục tiêu, tôn trọng robots.txt khi áp dụng, không thu thập dữ liệu cá nhân mà không có cơ sở hợp pháp, và tham khảo ý kiến luật sư cho các quy trình quy mô thương mại.
Q3: Tôi có cần một proxy dân cư không?
Có cho bất kỳ trang nào có bảo vệ chống bot đáng kể - hầu hết các nhà bán lẻ, chợ trực tuyến, SERPs và các trang đích SaaS lớn. Máy chủ MCP của Scrapeless mặc định định tuyến mọi cuộc gọi browser_* và scrape_* qua nhóm dân cư; không cần cấu hình proxy riêng cho cuộc gọi hoạt động.
Q4: Tôi có thể chọn khu vực proxy dân cư theo yêu cầu từ bề mặt MCP không?
Không từ công cụ browser_create của MCP - phiên làm việc của cloud-browser sử dụng khu vực proxy được cấu hình trên tài khoản Scrapeless. Để chọn khu vực theo truy vấn (Mỹ so với Đức so với Nhật Bản), điều khiển trình duyệt đám mây thông qua scrapeless-scraping-browser CLI với --proxy-country, hoặc duy trì nhiều khóa API cho các khu vực mặc định khác nhau.
Q5: Chế độ stdio vs chế độ HTTP streamable - cái nào thuộc về Antigravity?
Stdio là mặc định cho một trạm làm việc của nhà phát triển: Antigravity khởi động npx scrapeless-mcp-server như một tiến trình con và nói chuyện qua JSON-RPC trên stdin/stdout của nó. HTTP streamable là mặc định đúng khi Antigravity chạy trong một môi trường được lưu trữ (Codespaces, một container dev từ xa, một runner CI) nơi host không thể giữ một tiến trình con sống lâu. Cả hai chế độ đều sử dụng cùng một khóa API.
Q6: Tôi thêm cấu hình ở đâu - theo không gian làm việc hay toàn cầu?
Cấu hình MCP của Antigravity hiện tại là toàn cầu; đối tượng mcpServers giống nhau tại ~/.gemini/antigravity/mcp_config.json áp dụng cho mọi không gian làm việc. Cấu hình MCP theo không gian làm việc là yêu cầu tính năng đang được theo dõi trên diễn đàn nhà phát triển Antigravity.
Q7: Làm thế nào để giữ khóa API khỏi tệp JSON?
Sử dụng một vị trí giữ chỗ trong JSON và chèn giá trị thông qua biến môi trường OS. Đặt SCRAPELESS_KEY trong shell mà khởi động Antigravity (export SCRAPELESS_KEY=... trên macOS/Linux hoặc [Environment]::SetEnvironmentVariable("SCRAPELESS_KEY", "...", "User") trên Windows PowerShell), sau đó tham chiếu ${SCRAPELESS_KEY} trong khối env của cấu hình. Khởi động lại Antigravity để biến mới được phân phối.
Q8: Cuộc gọi browser_create đầu tiên trả về os error 10054 hoặc 503. Giờ thì sao?
Cả hai đều là lỗi tạm thời khi khởi động phiên trên hồ bơi proxy dân cư của Scrapeless. Một lần thử lại thường thành công - yêu cầu tác nhân gọi browser_close (nếu một phiên đã được tạo) và browser_create lại, hoặc bao quanh cuộc gọi trong một vòng lặp thử lại 2–3 lần.
Q9: Antigravity quyết định gọi công cụ Scrapeless nào như thế nào?
Mỗi công cụ MCP có một tên và một sơ đồ; người lập kế hoạch của Antigravity đọc các mô tả và khớp chúng với lời nhắc. @-đề cập đến máy chủ (@scrapeless …) thiên lệch người lập kế hoạch về bề mặt Scrapeless cho lượt đó, đây là cách sạch nhất để định rõ yêu cầu khi có nhiều máy chủ MCP hiển thị khả năng trùng lặp (ví dụ: máy chủ khác cũng cung cấp một công cụ kiểu fetch).
Q10: Tôi có thể chạy điều này mà không có Antigravity không?
Có. Máy chủ MCP Scrapeless là một máy chủ MCP tiêu chuẩn, có thể được gọi từ Claude Desktop, Claude Code, Cursor, OpenAI Codex CLI, Gemini CLI, VS Code + GitHub Copilot Chat, hoặc bất kỳ khách hàng tùy chỉnh nào được xây dựng dựa trên MCP TypeScript SDK. Đoạn JSON mcpServers giống hệt được sử dụng cho mỗi trường hợp. Đối với các giao diện không phải MCP, trình duyệt đám mây cũng có thể được truy cập thông qua scrapeless-scraping-browser CLI và điểm cuối WSS tại wss://browser.scrapeless.com/browser.
H11: Có bao nhiêu worker MCP đồng thời trên mỗi máy chủ?
Ba bản render đồng thời trên mỗi máy chủ là giới hạn đã được tài liệu hóa cho các phiên chạy ổn định. Để có fan-out cao hơn, hãy chạy nhiều khách hàng MCP (hoặc các quy trình worker đánh vào điểm cuối HTTP có thể stream) hoặc, cho các công việc batch thuần, hãy điều khiển CLI trực tiếp với một pool worker song song.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.



