Sử dụng Trình duyệt & Lấy dữ liệu từ Trình duyệt: Đạt hiệu quả tối đa của Đại lý AI

Senior Web Scraping Engineer
Trình duyệt Scraping đã trở thành công cụ hàng đầu cho việc trích xuất dữ liệu hàng ngày và các tác vụ tự động hóa. Bằng cách tích hợp Browser-Use với Trình duyệt Scraping Scrapeless, bạn có thể vượt qua các hạn chế của tự động hóa trình duyệt và tránh các khối.
Trong bài viết này, chúng tôi sẽ xây dựng một công cụ AI Agent tự động hóa sử dụng Browser-Use và Trình duyệt Scraping Scrapeless để thực hiện việc trích xuất dữ liệu tự động. Bạn sẽ thấy nó tiết kiệm thời gian và công sức như thế nào, khiến các tác vụ tự động hóa trở nên dễ dàng hơn!
Bạn sẽ học được:
- Browser-Use là gì và nó giúp xây dựng AI agents như thế nào?
- Tại sao Trình duyệt Scraping có thể vượt qua hiệu quả những hạn chế của Browser-Use?
- Làm thế nào để xây dựng một AI agent không bị chặn bằng cách sử dụng Browser-Use và Trình duyệt Scraping?
Browser-Use là gì?
Browser-Use là một thư viện tự động hóa trình duyệt AI dựa trên Python được thiết kế để cung cấp cho các AI agent khả năng tự động hóa trình duyệt tiên tiến. Nó có thể nhận diện tất cả các yếu tố tương tác trên một trang web và cho phép các agent tương tác với trang một cách lập trình—thực hiện các tác vụ phổ biến như tìm kiếm, nhấp chuột, điền biểu mẫu và trích xuất dữ liệu. Về cơ bản, Browser-Use chuyển đổi các trang web thành văn bản có cấu trúc và hỗ trợ các khuôn khổ trình duyệt như Playwright, giúp đơn giản hóa đáng kể các tương tác trên web.
Khác với các công cụ tự động hóa truyền thống, Browser-Use kết hợp hiểu biết hình ảnh với phân tích cấu trúc HTML, cho phép các AI agent điều khiển trình duyệt bằng các chỉ dẫn ngôn ngữ tự nhiên. Điều này làm cho AI trở nên tinh tế hơn trong việc nhận thức nội dung trang và thực hiện các tác vụ một cách hiệu quả. Thêm vào đó, nó hỗ trợ quản lý đa tab, theo dõi tương tác với các yếu tố, xử lý hành động tùy chỉnh, và cơ chế phục hồi lỗi tích hợp để đảm bảo sự ổn định và nhất quán của quy trình tự động hóa.
Quan trọng hơn, Browser-Use tương thích với tất cả các mô hình ngôn ngữ lớn chính (như GPT-4, Claude 3, Llama 2). Với sự tích hợp LangChain, người dùng chỉ cần mô tả các tác vụ bằng ngôn ngữ tự nhiên, và AI agent sẽ hoàn thành các thao tác web phức tạp. Đối với những người dùng tìm kiếm tự động hóa tương tác web dựa trên AI, đây là một công cụ mạnh mẽ và đầy triển vọng.
Hạn chế của Browser-Use trong phát triển AI Agent
Như đã đề cập ở trên, Browser-Use không hoạt động như một cây đũa thần từ Harry Potter. Thay vào đó, nó kết hợp đầu vào hình ảnh với kiểm soát AI để tự động hóa trình duyệt bằng cách sử dụng Playwright.
Browser-Use không thể tránh khỏi một số nhược điểm, nhưng những hạn chế này không xuất phát từ chính khung tự động hóa. Thay vào đó, chúng phát sinh từ các trình duyệt mà nó điều khiển. Các công cụ như Playwright khởi động trình duyệt với các cấu hình và công cụ cụ thể cho tự động hóa, điều này cũng có thể bị phơi bày trước các hệ thống phát hiện chống bot.
Kết quả là, AI agent của bạn có thể thường xuyên gặp phải các thử thách CAPTCHA hoặc các trang bị chặn như “Xin lỗi, đã có điều gì đó sai ở phía chúng tôi.” Để mở khóa toàn bộ tiềm năng của Browser-Use, cần có các điều chỉnh chu đáo. Mục tiêu cuối cùng là tránh kích hoạt các hệ thống chống bot để đảm bảo tự động hóa AI của bạn hoạt động trơn tru.
Sau khi thử nghiệm rộng rãi, chúng tôi có thể tự tin nói: Trình duyệt Scraping là giải pháp hiệu quả nhất.
Trình duyệt Scraping Scrapeless là gì?
Trình duyệt Scraping là một công cụ tự động hóa trình duyệt chạy trên đám mây, không cần máy chủ, được thiết kế để giải quyết ba vấn đề cốt lõi trong việc trích xuất dữ liệu web động: tắc nghẽn đồng thời cao, né tránh bot, và kiểm soát chi phí.
-
Nó cung cấp một môi trường trình duyệt headless chống chặn đồng thời cao liên tục để giúp các nhà phát triển dễ dàng trích xuất nội dung động.
-
Nó đi kèm với một bể IP proxy toàn cầu và công nghệ fingerprinting, có khả năng tự động giải quyết CAPTCHA và vượt qua các cơ chế chặn.
Được xây dựng đặc biệt cho các nhà phát triển AI, Trình duyệt Scraping Scrapeless có một lõi Chromium được tùy chỉnh sâu sắc và một mạng proxy phân phối toàn cầu. Người dùng có thể dễ dàng chạy và quản lý nhiều phiên trình duyệt headless để xây dựng các ứng dụng và AI agent tương tác với web. Nó loại bỏ các hạn chế của cơ sở hạ tầng cục bộ và các tắc nghẽn hiệu suất, cho phép bạn tập trung hoàn toàn vào việc xây dựng các giải pháp của mình.
Browser-Use và Trình duyệt Scraping kết hợp như thế nào?
Khi kết hợp lại, các nhà phát triển có thể sử dụng Browser-Use để phối hợp các thao tác trình duyệt trong khi dựa vào dịch vụ đám mây ổn định và khả năng chống chặn mạnh mẽ của Scrapeless để thu thập dữ liệu web một cách đáng tin cậy.
Browser-Use cung cấp các API đơn giản cho phép các AI agent “hiểu” và tương tác với nội dung web. Ví dụ, nó có thể sử dụng các LLM như OpenAI hoặc Anthropic để diễn giải các chỉ dẫn tác vụ và thực hiện các hành động như tìm kiếm hoặc nhấp vào liên kết trong trình duyệt thông qua Playwright.
Trình duyệt Scraping của Scrapeless bổ sung cho thiết lập này bằng cách khắc phục những điểm yếu của nó. Khi xử lý các trang web lớn có các biện pháp chống bot nghiêm ngặt, khả năng hỗ trợ proxy đa phiên cao, giải quyết CAPTCHA và cơ chế mô phỏng trình duyệt của nó đảm bảo việc thu thập dữ liệu ổn định.
Tóm lại, Browser-Use xử lý trí thông minh và tổ chức nhiệm vụ, trong khi Scrapeless cung cấp một nền tảng thu thập dữ liệu vững chắc, làm cho các tác vụ trình duyệt tự động trở nên hiệu quả và đáng tin cậy hơn.
Cách tích hợp Trình duyệt thu thập dữ liệu với Browser-Use?
Bước 1. Lấy khóa API Scrapeless
- Đăng ký và đăng nhập vào Bảng điều khiển Scrapeless.
- Chuyển đến "Cài đặt".
- Nhấp vào "Quản lý Khóa API".

Sau đó sao chép và thiết lập biến môi trường SCRAPELESS_API_KEY
trong tệp .env của bạn.
Để kích hoạt các tính năng AI trong Browser-Use, bạn cần một khóa API hợp lệ từ nhà cung cấp AI bên ngoài. Trong ví dụ này, chúng tôi sẽ sử dụng OpenAI. Nếu bạn chưa tạo khóa API, hãy làm theo hướng dẫn chính thức của OpenAI để tạo một cái.
Các biến môi trường OPENAI_API_KEY
trong tệp .env của bạn cũng là yêu cầu.
Tuyên bố miễn trừ trách nhiệm: Các bước sau đây tập trung vào cách tích hợp OpenAI, nhưng bạn có thể điều chỉnh theo nhu cầu của mình, chỉ cần đảm bảo sử dụng bất kỳ công cụ AI nào khác được hỗ trợ bởi Browser-Use.
.evn
OPENAI_API_KEY=your-openai-api-key
SCRAPELESS_API_KEY=your-scrapeless-api-key
💡Nhớ thay thế khóa API mẫu bằng khóa API thực của bạn
Tiếp theo, nhập ChatOpenAI
trong chương trình của bạn: langchain_openaiagent.py
Plain Text
from langchain_openai import ChatOpenAI
Lưu ý rằng Browser-Use dựa vào LangChain để xử lý tích hợp AI. Vì vậy, ngay cả khi bạn chưa cài đặt rõ ràng langchain_openai
trong dự án của mình, nó đã có sẵn để sử dụng.
gpt-4o
thiết lập tích hợp OpenAI với mô hình sau:
Plain Text
llm = ChatOpenAI(model="gpt-4o")
Không cần cấu hình thêm. Điều này là do langchain_openai
tự động đọc khóa API từ biến môi trường OPENAI_API_KEY
.
Đối với việc tích hợp với các mô hình hoặc nhà cung cấp AI khác, hãy xem tài liệu chính thức Browser-Use.
Bước 2. Cài đặt Browser Use
Sử dụng pip (Python ít nhất v.3.11):
Shell
pip install browser-use
Để chức năng bộ nhớ (cần Python <3.13 do tương thích với PyTorch):
Shell
pip install "browser-use[memory]"
Bước 3. Thiết lập Trình duyệt và Cấu hình Đại lý
Dưới đây là cách cấu hình trình duyệt và tạo một đại lý tự động hóa:
Python
from dotenv import load_dotenv
import os
import asyncio
from urllib.parse import urlencode
from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser, BrowserConfig
from pydantic import SecretStr
task = "Đi đến Google, tìm kiếm 'Scrapeless', nhấp vào bài viết đầu tiên và quay lại tiêu đề"
SCRAPELESS_API_KEY = os.environ.get("SCRAPELESS_API_KEY")
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
async def setup_browser() -> Browser:
scrapeless_base_url = "wss://browser.scrapeless.com/browser"
query_params = {
"token": SCRAPELESS_API_KEY,
"session_ttl": 1800,
"proxy_country": "ANY"
}
browser_ws_endpoint = f"{scrapeless_base_url}?{urlencode(query_params)}"
config = BrowserConfig(cdp_url=browser_ws_endpoint)
browser = Browser(config)
return browser
async def setup_agent(browser: Browser) -> Agent:
llm = ChatOpenAI(
model="gpt-4o", # Hoặc chọn mô hình bạn muốn sử dụng
api_key=SecretStr(OPENAI_API_KEY),
)
return Agent(
task=task,
llm=llm,
browser=browser,
)
Bước 4. Tạo Hàm Chính
Dưới đây là hàm chính kết hợp mọi thứ lại với nhau:
Python
async def main():
load_dotenv()
browser = await setup_browser()
agent = await setup_agent(browser)
result = await agent.run()
print(result)
await browser.close()
asyncio.run(main())
Bước 5. Chạy tập lệnh của bạn
Chạy tập lệnh của bạn:
Shell
python run main.py
Bạn sẽ thấy phiên Scrapeless của bạn bắt đầu trong Bảng điều khiển Scrapeless.
Ngoài ra, Scrapeless hỗ trợ phát lại phiên, cho phép hình dung chương trình. Trước khi chạy chương trình, hãy chắc chắn rằng bạn đã kích hoạt chức năng Ghi lại Web. Khi phiên hoàn tất, bạn có thể xem ghi chú trực tiếp trên Bảng điều khiển để giúp bạn khắc phục sự cố nhanh chóng.
Mã hoàn chỉnh
Python
from dotenv import load_dotenv
import os
import asyncio
from urllib.parse import urlencode
from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser, BrowserConfig
from pydantic import SecretStr
task = "Đi đến Google, tìm kiếm 'Scrapeless', nhấp vào bài viết đầu tiên và trả về tiêu đề"
SCRAPELESS_API_KEY = os.environ.get("SCRAPELESS_API_KEY")
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
async def setup_browser() -> Browser:
scrapeless_base_url = "wss://browser.scrapeless.com/browser"
query_params = {
"token": SCRAPELESS_API_KEY,
"session_ttl": 1800,
"proxy_country": "ANY"
}
browser_ws_endpoint = f"{scrapeless_base_url}?{urlencode(query_params)}"
config = BrowserConfig(cdp_url=browser_ws_endpoint)
browser = Browser(config)
return browser
async def setup_agent(browser: Browser) -> Agent:
llm = ChatOpenAI(
model="gpt-4o", # Hoặc chọn mô hình bạn muốn sử dụng
api_key=SecretStr(OPENAI_API_KEY),
)
return Agent(
task=task,
llm=llm,
browser=browser,
)
async def main():
load_dotenv()
browser = await setup_browser()
agent = await setup_agent(browser)
result = await agent.run()
print(result)
await browser.close()
asyncio.run(main())
💡Browser Use hiện tại chỉ hỗ trợ Python.
💡Bạn có thể sao chép URL trong phiên trực tiếp để theo dõi tiến trình của phiên theo thời gian thực, và bạn cũng có thể xem lại phiên trong lịch sử phiên.
Bước 6. Chạy Kết quả
JavaScript
{
"done": {
"text": "Tiêu đề của kết quả tìm kiếm đầu tiên được nhấp là: 'Bộ công cụ thu thập dữ liệu web dễ dàng - Scrapeless'.",
"success": True,
}
}

Sau đó, Đại diện Sử dụng Trình duyệt sẽ tự động mở URL và in ra tiêu đề trang: “Scrapeless: Bộ công cụ thu thập dữ liệu web dễ dàng” (đây là một ví dụ về tiêu đề trên trang chính thức của Scrapeless).
Toàn bộ quá trình thực thi có thể được xem trong bảng điều khiển Scrapeless dưới trang "Bảng điều khiển" → "Phiên" → "Lịch sử phiên", nơi bạn sẽ thấy chi tiết của phiên đã thực hiện gần đây.
Bước 7. Xuất Kết quả
Để chia sẻ với nhóm và lưu trữ, chúng ta có thể lưu thông tin đã thu thập vào tệp JSON hoặc CSV. Ví dụ, đoạn mã dưới đây cho thấy cách ghi kết quả tiêu đề vào một tệp:
Python
import json
from pathlib import Path
def save_to_json(obj, filename):
path = Path(filename)
path.parent.mkdir(parents=True, exist_ok=True)
with path.open('w', encoding='utf-8') as f:
json.dump(obj, f, ensure_ascii=False, indent=4)
async def main():
load_dotenv()
browser = await setup_browser()
agent = await setup_agent(browser)
result = await agent.run()
print(result)
save_to_json(result.model_dump(), "scrapeless_update_report.json")
await browser.close()
asyncio.run(main())
Mã trên cho thấy cách mở một tệp và ghi nội dung ở định dạng JSON, bao gồm từ khóa tìm kiếm, liên kết và tiêu đề trang. Tệp scrapeless_update_report.json
được tạo ra có thể được chia sẻ nội bộ thông qua cơ sở kiến thức công ty hoặc nền tảng hợp tác, giúp các thành viên trong nhóm dễ dàng xem kết quả thu thập dữ liệu. Đối với định dạng văn bản thuần túy, bạn có thể đơn giản thay đổi phần mở rộng sang .txt và sử dụng các phương pháp đầu ra văn bản đơn giản.
Kết thúc
Bằng cách sử dụng dịch vụ Trình duyệt Thu thập dữ liệu của Scrapeless kết hợp với Đại diện AI Sử dụng Trình duyệt, chúng ta có thể dễ dàng xây dựng một hệ thống tự động để thu thập thông tin và báo cáo.
- Scrapeless cung cấp một giải pháp thu thập dữ liệu dựa trên đám mây ổn định và hiệu quả có thể xử lý các cơ chế chống thu thập dữ liệu phức tạp.
- Browser Use cho phép đại diện AI điều khiển trình duyệt một cách thông minh để thực hiện các tác vụ như tìm kiếm, nhấp chuột và trích xuất.
Sự tích hợp này cho phép các nhà phát triển chuyển giao các nhiệm vụ thu thập dữ liệu web tẻ nhạt cho các đại diện tự động, cải thiện đáng kể hiệu quả nghiên cứu trong khi đảm bảo độ chính xác và kết quả theo thời gian thực.
Trình duyệt Thu thập dữ liệu của Scrapeless giúp AI tránh các chặn mạng trong khi truy xuất dữ liệu tìm kiếm theo thời gian thực và đảm bảo tính ổn định trong hoạt động. Kết hợp với động cơ chiến lược linh hoạt của Browser Use, chúng ta có thể xây dựng một công cụ nghiên cứu tự động hóa AI mạnh mẽ hơn, cung cấp hỗ trợ mạnh mẽ cho việc ra quyết định thông minh trong kinh doanh. Bộ công cụ này cho phép các đại diện AI "truy vấn" nội dung web như thể họ đang tương tác với một cơ sở dữ liệu, giảm đáng kể chi phí theo dõi đối thủ thủ công và cải thiện hiệu quả của các nhóm R&D và tiếp thị.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.