19-May-2025

Scrapeless x N8N

Xây dựng một quy trình dữ liệu web sử dụng trí tuệ nhân tạo với n8n, Scrapeless và Claude

Không cần thẻ tín dụng

Xây dựng một quy trình dữ liệu web được điều khiển bởi AI với n8n, Scrapeless và Claude

Giới thiệu

Trong bối cảnh hiện nay, khi dữ liệu là trung tâm, các tổ chức cần những cách hiệu quả để trích xuất, xử lý và phân tích nội dung web. Việc thu thập dữ liệu từ web truyền thống gặp phải nhiều thách thức: các biện pháp bảo vệ chống bot, việc xử lý JavaScript phức tạp và nhu cầu bảo trì liên tục. Hơn nữa, việc hiểu ý nghĩa của dữ liệu web không cấu trúc đòi hỏi phải có quy trình xử lý tinh vi.

Hướng dẫn này mô tả cách xây dựng một pipeline dữ liệu web hoàn chỉnh sử dụng tự động hóa quy trình n8n, thu thập dữ liệu web Scrapeless, AI Claude cho việc trích xuất thông minh, và cơ sở dữ liệu vector Qdrant cho lưu trữ ngữ nghĩa. Dù bạn đang xây dựng một cơ sở tri thức, tiến hành nghiên cứu thị trường, hay phát triển một trợ lý AI, quy trình này cung cấp một nền tảng mạnh mẽ.

Những gì bạn sẽ xây dựng

Quy trình n8n của chúng tôi kết hợp một số công nghệ tiên tiến:

Scrapeless Web Unlocker: Thu thập dữ liệu web tiên tiến với việc xử lý JavaScript
Claude 3.7 Sonnet: Trích xuất và cấu trúc dữ liệu dựa trên AI
Ollama Embeddings: Tạo vector nhúng cục bộ
Qdrant Vector Database: Lưu trữ và truy xuất ngữ nghĩa
Hệ thống Thông báo: Giám sát thời gian thực qua webhooks

Pipeline toàn diện này biến đổi dữ liệu web lộn xộn thành thông tin có cấu trúc, đã được vector hóa, sẵn sàng cho việc tìm kiếm ngữ nghĩa và ứng dụng AI.

Cài đặt và Thiết lập

Cài đặt n8n

n8n yêu cầu Node.js v18, v20 hoặc v22. Nếu bạn gặp phải các vấn đề về tương thích phiên bản:

Copy

# Kiểm tra phiên bản Node.js của bạn
node -v

# Nếu bạn có một phiên bản mới hơn không được hỗ trợ (ví dụ: v23+), cài đặt nvm
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# Hoặc trên Windows, sử dụng trình cài đặt NVM cho Windows

# Cài đặt phiên bản Node.js tương thích
nvm install 20

# Sử dụng phiên bản đã cài đặt
nvm use 20

# Cài đặt n8n toàn cục
npm install n8n -g

# Chạy n8n
n8n

Instance n8n của bạn bây giờ sẽ có sẵn tại http://localhost:5678.

Thiết lập Claude API

Truy cập Anthropic Console và tạo một tài khoản
Điều hướng đến phần API Keys
Nhấp vào "Create Key" và đặt quyền truy cập phù hợp
Sao chép API key của bạn để sử dụng trong quy trình n8n (Trong AI Data Checker, Claude Data extractor và Claude AI Agent)

Thiết lập Scrapeless

Truy cập Scrapeless và tạo một tài khoản
Điều hướng đến phần Universal Scraping API trên bảng điều khiển của bạn: https://app.scrapeless.com/exemple/overview
Sao chép token của bạn để sử dụng trong quy trình n8n

Bạn có thể tùy chỉnh yêu cầu thu thập dữ liệu web Scrapeless của mình bằng lệnh curl này và nhập trực tiếp vào nút HTTP Request trong n8n:

Copy

curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'

Cài đặt Qdrant với Docker

Copy

# Kéo ảnh Qdrant
docker pull qdrant/qdrant

# Chạy container Qdrant với sự bảo toàn dữ liệu
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

Xác minh rằng Qdrant đang chạy:

Copy

curl http://localhost:6333/healthz

Cài đặt Ollama

macOS:

Copy

brew install ollama

Linux:

Copy

curl -fsSL https://ollama.com/install.sh | sh

Windows: Tải xuống và cài đặt từ trang web của Ollama.

Khởi động server Ollama:

Copy

ollama serve

Cài đặt mô hình nhúng cần thiết:

Copy

ollama pull all-minilm

Xác minh việc cài đặt mô hình:

Copy

ollama list

Thiết lập Quy trình n8n

Tổng quan Quy trình

Quy trình của chúng tôi bao gồm những thành phần chính sau:

Kích hoạt Thủ công/Lập lịch: Bắt đầu quy trình
Kiểm tra Bộ sưu tập: Xác minh xem bộ sưu tập Qdrant có tồn tại hay không
Cấu hình URL: Thiết lập URL mục tiêu và các tham số
Yêu cầu Web Scrapeless: Trích xuất nội dung HTML
Trích xuất Dữ liệu Claude: Xử lý và cấu trúc dữ liệu
Nhúng Ollama: Tạo ra các nhúng vector
Lưu trữ Qdrant: Lưu trữ các vector và metadata
Thông báo: Gửi cập nhật trạng thái qua webhook

Bước 1: Cấu hình Kích hoạt Quy trình và Kiểm tra Bộ sưu tập

Bắt đầu bằng cách thêm một nút Kích hoạt Thủ công, sau đó thêm một nút Yêu cầu HTTP để kiểm tra xem bộ sưu tập Qdrant của bạn có tồn tại không. Bạn có thể tùy chỉnh tên bộ sưu tập trong bước ban đầu này - quy trình sẽ tự động tạo bộ sưu tập nếu nó không tồn tại.

Lưu ý Quan trọng: Nếu bạn muốn sử dụng một tên bộ sưu tập khác ngoài "hacker-news" mặc định, hãy đảm bảo thay đổi nó một cách đồng nhất trong TẤT CẢ các nút tham chiếu đến Qdrant.

Bước 2: Cấu hình Yêu cầu Web Scrapeless

Thêm một nút Yêu cầu HTTP cho việc thu thập dữ liệu web Scrapeless. Cấu hình nút bằng cách sử dụng lệnh curl đã cung cấp trước đó làm tham chiếu, thay thế YOUR_API_TOKEN bằng mã thông báo API Scrapeless thực tế của bạn.

Bạn có thể cấu hình các tham số thu thập dữ liệu nâng cao hơn tại Scrapeless Web Unlocker.

Bước 3: Trích xuất Dữ liệu Claude

Thêm một nút để xử lý nội dung HTML bằng Claude. Bạn sẽ cần cung cấp khóa API Claude của bạn để xác thực. Bộ trích xuất Claude phân tích nội dung HTML và trả về dữ liệu có cấu trúc ở định dạng JSON.

Bước 4: Định dạng Đầu ra Claude

Nút này nhận phản hồi từ Claude và chuẩn bị cho việc nhúng bằng cách trích xuất thông tin liên quan và định dạng nó cho phù hợp.

Bước 5: Tạo Nhúng Ollama

Nút này gửi văn bản có cấu trúc đến Ollama để tạo nhúng. Đảm bảo máy chủ Ollama của bạn đang chạy và mô hình all-minilm đã được cài đặt.

Bước 6: Lưu trữ Vector Qdrant

Nút này lấy các nhúng đã tạo và lưu trữ chúng trong bộ sưu tập Qdrant của bạn cùng với metadata liên quan.

Bước 7: Hệ thống Thông báo

Nút cuối cùng gửi thông báo với trạng thái thực hiện quy trình qua webhook đã cấu hình của bạn.

Xử lý sự cố các vấn đề phổ biến

Vấn đề Phiên bản Node.js n8n

Nếu bạn thấy một lỗi như:

Copy

Phiên bản Node.js của bạn X hiện không được n8n hỗ trợ.  
Vui lòng sử dụng Node.js v18.17.0 (khuyến nghị), v20 hoặc v22 thay vào đó!

Khắc phục bằng cách cài đặt nvm và sử dụng phiên bản Node.js tương thích như đã mô tả trong phần cài đặt.

Vấn đề Kết nối API Scrapeless

Xác minh mã thông báo API của bạn là chính xác
Kiểm tra xem bạn có đang gặp giới hạn tỉ lệ API hay không
Đảm bảo định dạng URL đúng

Lỗi Nhúng Ollama

Lỗi phổ biến: connect ECONNREFUSED ::1:11434

Khắc phục:

Đảm bảo Ollama đang chạy: ollama serve
Xác minh mô hình đã được cài đặt: ollama pull all-minilm
Sử dụng IP trực tiếp (127.0.0.1) thay vì localhost
Kiểm tra xem có quá trình khác đang sử dụng cổng 11434 hay không

Kịch bản Sử dụng Nâng cao

Xử lý hàng loạt Nhiều URL

Để xử lý nhiều URL trong một lần thực hiện quy trình:

Sử dụng nút Chia nhỏ thành Lô để xử lý các URL song song
Cấu hình xử lý lỗi phù hợp cho từng lô
Sử dụng nút Gộp để kết hợp kết quả

Cập nhật Dữ liệu Định kỳ

Giữ cho cơ sở dữ liệu vector của bạn được cập nhật với các bản cập nhật định kỳ:

Thay thế nút kích hoạt thủ công bằng nút Lịch
Cấu hình tần suất cập nhật (hàng ngày, hàng tuần, v.v.)
Sử dụng nút Nếu để chỉ xử lý nội dung mới hoặc đã thay đổi

Mẫu Trích xuất Tùy chỉnh

Điều chỉnh quy trình trích xuất của Claude cho các loại nội dung khác nhau:

Tạo các gợi ý cụ thể cho bài báo tin tức, trang sản phẩm, tài liệu, v.v.
Sử dụng nút Chuyển đổi để chọn gợi ý phù hợp
Lưu trữ các mẫu trích xuất dưới dạng biến môi trường

Kết luận

Quy trình n8n này tạo ra một pipeline dữ liệu mạnh mẽ kết hợp sức mạnh của thu thập dữ liệu web Scrapeless, trích xuất AI Claude, nhúng vector và lưu trữ Qdrant. Bằng cách tự động hóa các quy trình phức tạp này, bạn có thể tập trung vào việc sử dụng dữ liệu đã trích xuất hơn là các thách thức kỹ thuật để có được nó.

Tính chất mô-đun của n8n cho phép bạn mở rộng quy trình này với các bước xử lý bổ sung, tích hợp với các hệ thống khác hoặc logic tùy chỉnh để đáp ứng nhu cầu cụ thể của bạn. Dù bạn đang xây dựng một cơ sở kiến thức AI, thực hiện phân tích cạnh tranh, hay giám sát nội dung web, quy trình này cung cấp một nền tảng vững chắc.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Trên trang này