Cách thiết lập proxy Crawlee vào năm 2026

Michael Lee

Expert Network Defense Engineer

17-Dec-2025

Nhìn qua nhanh

Cấu hình các proxy nhà ở cao cấp trong Crawlee để tránh bị chặn IP và mở rộng hoạt động thu thập dữ liệu web của bạn một cách đáng tin cậy trên bất kỳ trang web nào.

Đăng nhập ngay - Dùng thử miễn phí

Những điểm chính

Crawlee là một khung thu thập dữ liệu web hiện đại được xây dựng trên Puppeteer/Playwright cho các trang web nhiều JavaScript
Proxy miễn phí không đáng tin cậy và thường bị hệ thống chống thu thập dữ liệu chặn
Proxy nhà ở cao cấp cung cấp IP hợp pháp do ISP cấp phát, đánh bại hầu hết các cơ chế chặn
Xác thực proxy yêu cầu tên người dùng và mật khẩu được nhúng trong chuỗi kết nối
Cấu hình proxy đúng cách cho phép thu thập dữ liệu quy mô lớn mà không bị cấm IP hoặc thời gian chờ yêu cầu

Hiểu về Crawlee

Crawlee là một khung thu thập dữ liệu web giúp đơn giản hóa quy trình thu thập và xáo trộn dữ liệu. Được xây dựng trên các công nghệ trình duyệt không giao diện như Puppeteer (Node.js) và Playwright (Python), Crawlee xử lý tự động hóa trình duyệt, quản lý phiên và lưu trữ kết quả. Khác với các thư viện HTTP đơn giản hơn, Crawlee thực thi JavaScript, quản lý cookie và tương tác với nội dung động — điều này rất quan trọng cho các trang web hiện đại mà render nội dung ở phía khách hàng.

Tuy nhiên, các trang web phát hiện và chặn hành vi mặc định của Crawlee thông qua nhiều cơ chế. Người dùng tiêu chuẩn xác định các script của Crawlee cho các hệ thống chống bot. Các yêu cầu từ địa chỉ IP trung tâm dữ liệu gây nghi ngờ. Tốc độ giới hạn được kích hoạt khi Crawlee thực hiện các yêu cầu liên tiếp nhanh chóng. Proxy giải quyết những vấn đề này bằng cách phân phối các yêu cầu trên các IP nhà ở hợp pháp và ẩn danh nguồn gốc yêu cầu thực tế.

Hạn chế của Proxy miễn phí

Proxy miễn phí được liệt kê trong các cơ sở dữ liệu công cộng có vẻ hấp dẫn cho các nhà phát triển chú trọng chi phí. Tuy nhiên, chúng giới thiệu những bất lợi đáng kể:

Tính khả dụng không đáng tin cậy: Proxy miễn phí thường biến mất hoặc trở nên không thể truy cập, làm gián đoạn quá trình thu thập dữ liệu
Hiệu suất chậm: Proxy miễn phí chuyển hướng lưu lượng qua nhiều máy chủ trung gian, gây ra độ trễ chậm lại việc thu thập dữ liệu
Tỷ lệ chặn cao: Các trang web duy trì danh sách chặn các IP proxy miễn phí đã biết, làm cho chúng không hiệu quả cho việc thu thập dữ liệu nghiêm túc
Mối lo ngại về bảo mật: Các nhà điều hành proxy miễn phí không thể đảm bảo các hoạt động hợp pháp — một số đánh chặn lưu lượng hoặc chèn phần mềm độc hại
Không hỗ trợ: Dịch vụ proxy miễn phí không cung cấp bất kỳ hỗ trợ khách hàng nào khi gặp sự cố

Các proxy premium tiết kiệm chi phí như Proxy Nhà ở Scrapeless bắt đầu từ $0.40/GB vượt trội hơn hẳn các lựa chọn miễn phí mặc dù chênh lệch chi phí tối thiểu.

Lợi ích của Proxy cao cấp

Proxy nhà ở cao cấp cung cấp những lợi thế hợp pháp cho các hoạt động Crawlee:

IP nhà ở thực: Proxy sử dụng các địa chỉ IP được cấp phát bởi các ISP cho người dùng internet thực, làm cho chúng không thể phân biệt với lưu lượng thực
Lượt IP: Các thuật toán phân bổ thông minh tự động xoay vòng qua các địa chỉ đa dạng, ngăn chặn sự tích lũy mẫu nghi ngờ theo IP
Nhắm mục tiêu địa lý: Chọn vị trí proxy phù hợp với mong đợi địa lý trang web mục tiêu của bạn
Thời gian hoạt động cao: Các nhà cung cấp chuyên nghiệp đảm bảo 99.9%+ thời gian có mặt với các bảo vệ SLA
Chuyển hướng thông minh: Phát hiện và tránh kết nối chậm hoặc bị chặn tự động

Những khả năng này biến Crawlee từ một công cụ đòi hỏi quản lý thủ công sâu rộng thành một nền tảng thu thập dữ liệu cấp sản xuất.

Cấu hình Proxy Crawlee Cơ bản

Crawlee hỗ trợ proxy thông qua các đối tượng cấu hình được truyền vào các thể hiện thu thập. Cấu trúc cơ bản yêu cầu URL proxy với xác thực:

javascript Copy

import { CheerioCrawler } from 'crawlee';

const crawler = new CheerioCrawler({
    proxyUrls: [
        'http://username:password@proxy.example.com:8080'
    ]
});

await crawler.addRequests([
    { url: 'https://example.com/page1' },
    { url: 'https://example.com/page2' }
]);

await crawler.run();

Cấu trúc URL proxy theo mẫu chuẩn: protocol://[username:password@]host[:port]

Thiết lập Proxy Nhà ở Scrapeless

Proxy Nhà ở Scrapeless tích hợp liền mạch với Crawlee thông qua cấu hình đơn giản. Truy cập bảng điều khiển tài khoản của bạn để nhận thông tin xác thực proxy tự động tạo:

Bước 1: Truy cập Trình tạo Proxy
Đăng nhập vào tài khoản Scrapeless của bạn và chuyển đến bảng điều khiển Proxy Generator. Thông tin xác thực proxy dân cư tự động của bạn xuất hiện ở đầu trang.

Bước 2: Cấu hình thông tin xác thực

Đặt tên người dùng và mật khẩu của bạn thông qua giao diện quản lý thông tin xác thực. Scrapeless hỗ trợ nhiều bộ thông tin xác thực cho các ứng dụng khác nhau.

Bước 3: Định dạng URL Proxy

Kết hợp thông tin xác thực và điểm cuối proxy của bạn thành một URL proxy hợp lệ:

Copy

http://username:password@superproxy.scrapeless.com:1337

Scrapeless cung cấp các điểm cuối riêng biệt cho lưu lượng HTTP (cổng 1337) và HTTPS (cổng 1338).

Bước 4: Tích hợp với Crawlee

Áp dụng URL proxy vào cấu hình Crawlee của bạn:

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337';

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    useSessionPool: true
});

await crawler.addRequests([
    { url: 'https://target-website.com' }
]);

await crawler.run();

Cấu hình Proxy Nâng cao

Nhiều URL Proxy: Crawlee chấp nhận mảng các URL proxy, tự động phân phối các yêu cầu qua nhiều proxy:

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [
        'http://user1:pass1@proxy1.scrapeless.com:1337',
        'http://user2:pass2@proxy2.scrapeless.com:1337',
        'http://user3:pass3@proxy3.scrapeless.com:1337'
    ]
});

Lựa chọn Proxy Động: Đối với các hoạt động thu thập thông tin phức tạp, Scrapeless cung cấp lựa chọn proxy thông minh tối ưu hóa phân bổ IP dựa trên đặc điểm của trang web mục tiêu.

Nhắm đến Địa lý: Chỉ định vị trí địa lý của proxy thông qua các tham số URL:

javascript Copy

const proxyUrl = 'http://username:password@superproxy.scrapeless.com:1337?country=US&state=NY';

Tham số này buộc tất cả các yêu cầu thông qua các proxy ở New York, đảm bảo phản hồi phù hợp với địa phương.

Xử lý Xác thực và Phiên

Một số trang web yêu cầu thông tin đăng nhập. Crawlee xử lý xác thực thông qua quản lý phiên. Khi kết hợp với việc xoay vòng proxy, các phiên duy trì trạng thái đăng nhập giữa các yêu cầu từ các IP khác nhau:

javascript Copy

import { PuppeteerCrawler } from 'crawlee';

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337'],
    useSessionPool: true,
    sessionPoolOptions: {
        maxPoolSize: 50
    }
});

crawler.addPostResponseHandler(async ({ page, session }) => {
    // Mỗi phiên duy trì cookie và trạng thái xác thực riêng
    if (session.isValid) {
        // Xử lý trang đã xác thực
    }
});

Hồ bơi phiên của Crawlee cách ly cookie và trạng thái theo từng phiên, đảm bảo rằng việc xoay vòng IP không làm gián đoạn xác thực.

Tránh Các Vấn Đề Proxy Thông Thường

Thời gian chờ Proxy: Nếu các yêu cầu thường xuyên hết thời gian, hãy tăng giá trị thời gian chờ:

javascript Copy

const crawler = new PuppeteerCrawler({
    navigationTimeoutSecs: 30,
    proxyUrls: [proxyUrl]
});

Kết nối bị từ chối: Kiểm tra xem thông tin xác thực có phù hợp với yêu cầu của nhà cung cấp proxy của bạn không. Lỗi chính tả hoặc lỗi định dạng gây ra sự thất bại kết nối ngay lập tức.

Giới hạn Tốc độ Mặc Dù có Proxy: Ngay cả khi có sự xoay vòng proxy, tốc độ yêu cầu quá mức sẽ gây ra tình trạng bị chặn. Thực hiện độ trễ yêu cầu:

javascript Copy

const crawler = new PuppeteerCrawler({
    proxyUrls: [proxyUrl],
    handlePageTimeoutSecs: 60,
    preNavigationHooks: [
        async ({ request }) => {
            await page.waitForTimeout(Math.random() * 3000)
        }
    ]
});

Proxy Bị Chặn: Nếu các proxy Scrapeless cụ thể bị chặn, dịch vụ sẽ tự động xoay vòng đến các địa chỉ khác. Liên hệ với hỗ trợ nếu tình trạng chặn vẫn tiếp diễn.

Giải pháp Toàn diện: Trình duyệt Scrapeless

Để đảm bảo độ tin cậy tối đa, Trình duyệt Scrapeless cung cấp giải pháp thay thế cho Puppeteer với việc xoay vòng proxy tích hợp, kết xuất JavaScript và vượt qua bot:

Thử miễn phí >

Trình duyệt tự động xử lý cấu hình proxy, loại bỏ việc thiết lập thủ công trong khi mang lại tỷ lệ thành công vượt trội đối với các trang web được bảo vệ.

Kiểm tra Cấu hình của Bạn

Xác minh thiết lập proxy bằng cách kiểm tra địa chỉ IP trả về:

javascript Copy

```javascript
const { PuppeteerCrawler } = require('crawlee');

const crawler = new PuppeteerCrawler({
    proxyUrls: ['http://user:pass@superproxy.scrapeless.com:1337']
});

crawler.addPostResponseHandler(async ({ page }) => {
    const ipInfo = await page.evaluate(() => {
        return fetch('https://httpbin.io/ip').then(r => r.json());
    });
    console.log('IP yêu cầu:', ipInfo.origin);
});

Nếu địa chỉ IP trả về khác với địa chỉ IP của máy tính của bạn, thì proxy hoạt động chính xác. Nếu nó khớp, yêu cầu đã bỏ qua proxy - hãy kiểm tra thông tin xác thực và chi tiết kết nối.

Tối ưu hóa hiệu suất

Proxy được cấu hình đúng cho phép thu thập dữ liệu hiệu suất cao:

Đồng thời: Chạy hơn 50 yêu cầu song song khi sử dụng quay vòng proxy
Tốc độ: Các yêu cầu trung bình mất 1-2 giây với proxy cao cấp so với 5-10 giây với proxy miễn phí
Độ tin cậy: Tỷ lệ thành công trên 99% so với 50-70% cho việc quản lý proxy miễn phí hoặc thủ công

Những cải tiến này chuyển trực tiếp thành việc thu thập dữ liệu nhanh hơn và chi phí vận hành thấp hơn mặc dù có chi phí cho proxy.

Câu hỏi thường gặp

H: Tôi có cần thông tin xác thực proxy khác nhau cho mỗi phiên bản Crawlee không?

Đ: Không. Thông tin xác thực proxy duy nhất hoạt động trên vô hạn các phiên bản Crawlee. Tuy nhiên, việc chạy nhiều scraper quy mô lớn cùng lúc có thể được hưởng lợi từ các thông tin xác thực riêng biệt cho phép quản lý giới hạn tốc độ độc lập.

H: Tôi có thể kết hợp các proxy Scrapeless với các nhà cung cấp proxy khác không?

Đ: Có. Crawlee chấp nhận các mảng URL proxy đa dạng, tự động phân phối yêu cầu. Tuy nhiên, việc quản lý nhiều nhà cung cấp tăng độ phức tạp. Giải pháp từ một nhà cung cấp thường cho thấy đáng tin cậy hơn.

H: Tôi nên làm gì nếu một proxy bị chặn vĩnh viễn?

Đ: Các nhà cung cấp cao cấp như Scrapeless tự động quay vòng ra khỏi các địa chỉ IP bị chặn. Nếu vấn đề vẫn tiếp diễn, hãy liên hệ với bộ phận hỗ trợ - họ thường đưa vào danh sách trắng các miền cụ thể hoặc điều chỉnh định tuyến để giải quyết các chặn.

H: Bao nhiêu yêu cầu đồng thời mà các proxy Scrapeless có thể xử lý?

Đ: Hạ tầng Scrapeless hỗ trợ hàng nghìn yêu cầu đồng thời. Giới hạn đồng thời dựa trên sự chịu đựng của trang web mục tiêu của bạn hơn là khả năng của proxy. Kiểm tra dần từ 10 yêu cầu đồng thời lên tới 100+.

H: Quay vòng proxy trong Crawlee có tự động hay thủ công?

Đ: Crawlee xử lý quay vòng tự động khi được cung cấp nhiều URL proxy. Khung công tác phân phối các yêu cầu qua các proxy mà không cần sự can thiệp của nhà phát triển, làm đơn giản hóa các hoạt động quy mô lớn.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.

Michael Lee

17-Jul-2025

Danh mục