🥳Tham gia Cộng đồng Scrapelessnhận thử nghiệm miễn phí của bạn để truy cập Bộ công cụ Web Scraping mạnh mẽ của chúng tôi!
Quay lại blog

Cách thu thập dữ liệu tự động trên Make?

Alex Johnson
Alex Johnson

Senior Web Scraping Engineer

25-Jun-2025

Chúng tôi vừa ra mắt một tích hợp chính thức trên Make, hiện có sẵn như một ứng dụng công khai. Hướng dẫn này sẽ cho bạn biết cách tạo một quy trình làm việc tự động mạnh mẽ kết hợp API Tìm kiếm Google của chúng tôi với Web Unlocker để trích xuất dữ liệu từ các kết quả tìm kiếm, xử lý nó bằng Claude AI và gửi đến một webhook.

Chúng Ta Sẽ Xây Dựng Gì

Trong hướng dẫn này, chúng ta sẽ tạo một quy trình làm việc với:

  1. Tự động kích hoạt mỗi ngày bằng cách sử dụng lập lịch tích hợp
  2. Tìm kiếm Google cho các truy vấn cụ thể bằng cách sử dụng API Tìm Kiếm Google của Scrapeless
  3. Xử lý từng URL một cách riêng lẻ với Iterator
  4. Trích xuất nội dung từ mỗi URL với Scrapeless WebUnlocker
  5. Phân tích nội dung với Anthropic Claude AI
  6. Gửi dữ liệu đã xử lý đến một webhook (Discord, Slack, cơ sở dữ liệu, v.v.)

Điều Kiện Đầu Vào

Khóa API Scrapeless
  • Một khóa API Anthropic Claude
  • Một điểm cuối webhook (webhook Discord, Zapier, điểm cuối cơ sở dữ liệu, v.v.)
  • Hiểu biết cơ bản về quy trình làm việc của Make.com

Tổng Quan Quy Trình Làm Việc Hoàn Chỉnh

Quy trình làm việc cuối cùng của bạn sẽ trông như thế này:

Tìm Kiếm Google Scrapeless (với lập lịch tích hợp) → IteratorWebUnlocker ScrapelessAnthropic ClaudeHTTP Webhook

Tổng Quan Quy Trình Làm Việc Hoàn Chỉnh

Bước 1: Thêm Tìm Kiếm Google Scrapeless với Lập Lịch Tích Hợp

Chúng ta sẽ bắt đầu bằng cách thêm mô-đun Tìm Kiếm Google Scrapeless với lập lịch tích hợp sẵn.

  1. Tạo một kịch bản mới trong Make.com
  2. Nhấp vào nút "+" để thêm mô-đun đầu tiên
  3. Tìm kiếm "Scrapeless" trong thư viện mô-đun
  4. Chọn Scrapeless và chọn hành động Search Google
Cấu Hình Mô-đun Tìm Kiếm Google

Cấu Hình Tìm Kiếm Google với Lập Lịch

Cấu Hình Mô-đun Tìm Kiếm Google

Cài Đặt Kết Nối:

  1. Tạo một kết nối bằng cách nhập khóa API Scrapeless của bạn
  2. Nhấp vào "Thêm" và làm theo quy trình cài đặt kết nối

Thông Số Tìm Kiếm:

  • Tìm Kiếm Truy Vấn: Nhập truy vấn mục tiêu của bạn (ví dụ: "tin tức trí tuệ nhân tạo")
  • Ngôn Ngữ: en (Tiếng Anh)
  • Quốc Gia: US (Hoa Kỳ)
Cấu Hình Tìm Kiếm Google

Cài Đặt Lập Lịch:

Cài Đặt Lập Lịch
  1. Nhấp vào biểu tượng đồng hồ trên mô-đun để mở lập lịch
  2. Chạy kịch bản: Chọn "Theo khoảng thời gian đều đặn"
  3. Phút: Đặt thành 1440 (cho việc thực hiện hàng ngày) hoặc khoảng thời gian bạn thích
  4. Lập lịch nâng cao: Sử dụng "Thêm mục" để đặt thời gian/ngày cụ thể nếu cần

Bước 2: Xử Lý Kết Quả với Iterator

Tìm kiếm trên Google trả về nhiều URL trong một mảng. Chúng ta sẽ sử dụng Iterator để xử lý từng kết quả một cách riêng lẻ.

  1. Thêm một mô-đun Iterator sau Tìm Kiếm Google
  2. Cấu hình trường Mảng để xử lý các kết quả tìm kiếm
Cấu Hình Iterator

Cấu Hình Iterator:

  • Mảng: {{1.result.organic_results}}

Điều này sẽ tạo ra một vòng lặp xử lý từng kết quả tìm kiếm một cách riêng biệt, cho phép xử lý lỗi tốt hơn và xử lý riêng lẻ.

Bước 3: Thêm WebUnlocker Scrapeless

Bây giờ chúng ta sẽ thêm mô-đun WebUnlocker để trích xuất nội dung từ mỗi URL.

  1. Thêm một mô-đun Scrapeless khác
  2. Chọn hành động Scrape URL (WebUnlocker)
  3. Sử dụng cùng một kết nối Scrapeless
Cấu Hình WebUnlocker

Cấu Hình WebUnlocker:

  • Kết nối: Sử dụng kết nối Scrapeless hiện có của bạn
  • Địa Chỉ URL Mục Tiêu: {{2.link}} (được ánh xạ từ đầu ra của Iterator)
  • Js Render: Có
  • Headless: Có
  • Quốc Gia: Toàn Cầu
  • Hướng Dẫn Js: [{"wait":1000}] (chờ tải trang)
  • Chặn: Cấu hình để chặn các tài nguyên không cần thiết để tăng tốc độ trích xuất
Cấu Hình WebUnlocker

Bước 4: Xử Lý AI với Anthropic Claude

Thêm Claude AI để phân tích và tóm tắt nội dung đã trích xuất.

  1. Thêm một mô-đun Anthropic Claude
  2. Chọn hành động Make an API Call
  3. Tạo một kết nối mới với khóa API Claude của bạn
Cấu Hình Claude AI

Cấu Hình Claude:

  • Kết nối: Tạo kết nối với khóa API Anthropic của bạn
  • Lời nhắc: Cấu hình để phân tích nội dung đã được lấy
  • Mô hình: claude-3-sonnet-20240229 / claude-3-opus-20240229 hoặc mô hình bạn ưa thích
  • Tối đa Từ: 1000-4000 tùy theo nhu cầu của bạn

URL

Copy
/v1/messages

Tiêu đề 1

  • Khóa : Content-Type
  • Giá trị : application/json

Tiêu đề 2

  • Khóa : anthropic-version
  • Giá trị : 2023-06-01

Ví dụ Lời nhắc sao chép dán vào nội dung:

Copy
{
  "model": "claude-3-sonnet-20240229",
  "max_tokens": 1000,
  "messages": [
    {
      "role": "user",
      "content": "Phân tích nội dung web này và cung cấp một bản tóm tắt bằng tiếng Anh với các điểm chính:\n\nTiêu đề: {{14.title}}\nURL: {{14.link}}\nMô tả: {{14.snippet}}\nNội dung: {{13.content}}\n\nTruy vấn Tìm kiếm: {{1.result.search_information.query_displayed}}"
    }
  ]
}
  • Đừng quên thay đổi số 14 bằng số mô-đun của bạn.

Bước 5: Tích hợp Webhook

Cuối cùng, gửi dữ liệu đã xử lý đến điểm cuối webhook của bạn.

  1. Thêm một mô-đun HTTP
  2. Cấu hình nó để gửi một yêu cầu POST đến webhook của bạn

Cấu hình HTTP:

  • URL: Điểm cuối webhook của bạn (Discord, Slack, cơ sở dữ liệu, v.v.)
  • Phương thức: POST
  • Tiêu đề: Content-Type: application/json
  • Loại Nội dung: Thô (JSON)

Ví dụ Payload Webhook:

Copy
{
  "embeds": [
    {
      "title": "{{14.title}}",
      "description": "*{{15.body.content[0].text}}*",
      "url": "{{14.link}}",
      "color": 3447003,
      "footer": {
        "text": "Phân tích hoàn tất"
      }
    }
  ]
}

Kết quả Chạy

Tham khảo Mô-đun và Luồng Dữ liệu

Luồng Dữ liệu Qua Các Mô-đun:

  1. Mô-đun 1 (Tìm kiếm Google không có Scrapeless): Trả về result.organic_results[]
  2. Mô-đun 14 (Bộ lặp): Xử lý từng kết quả, xuất các mục riêng lẻ
  3. Mô-đun 13 (WebUnlocker): Lấy dữ liệu {{14.link}}, trả về nội dung
  4. Mô-đun 15 (Claude AI): Phân tích {{13.content}}, trả về tóm tắt
  5. Mô-đun 16 (Webhook HTTP): Gửi dữ liệu đã định hình cuối cùng

Bản đồ Quan trọng:

  • Mảng Bộ lặp: {{1.result.organic_results}}
  • URL WebUnlocker: {{14.link}}
  • Nội dung Claude: {{13.content}}
  • Dữ liệu Webhook: Kết hợp của tất cả các mô-đun trước đó

Kiểm tra Quy trình của Bạn

  1. Chạy một lần để kiểm tra toàn bộ kịch bản
  2. Kiểm tra từng mô-đun:
  • Tìm kiếm Google trả về kết quả hữu cơ
  • Bộ lặp xử lý từng kết quả một cách riêng lẻ
  • WebUnlocker lấy nội dung thành công
  • Claude cung cấp phân tích có ý nghĩa
  • Webhook nhận dữ liệu có cấu trúc
  1. Xác minh chất lượng dữ liệu ở đích đến webhook của bạn
  2. Kiểm tra lịch trình - đảm bảo nó chạy theo khoảng thời gian bạn ưa thích

Mẹo Cấu hình Nâng cao

Xử lý Lỗi

  • Thêm các tuyến Xử lý Lỗi sau mỗi mô-đun
  • Sử dụng Bộ lọc để bỏ qua các URL không hợp lệ hoặc nội dung trống
  • Đặt logic Thử lại cho các lỗi tạm thời

Lợi ích của Quy trình này

  • Tự động hoàn toàn: Chạy hàng ngày mà không cần can thiệp thủ công
  • Tăng cường AI: Nội dung được phân tích và tóm tắt tự động
  • Đầu ra Linh hoạt: Webhook có thể tích hợp với bất kỳ hệ thống nào
  • Có thể mở rộng: Xử lý nhiều URL một cách hiệu quả
  • Kiểm soát Chất lượng: Nhiều bước lọc và xác minh
  • Thông báo Thời gian thực: Gửi ngay đến nền tảng bạn ưa thích

Trường hợp Sử dụng

Hoàn hảo cho:

  • Giám sát Nội dung: Theo dõi đề cập đến thương hiệu hoặc đối thủ cạnh tranh của bạn
  • Tổng hợp Tin tức: Tóm tắt tin tức tự động về các chủ đề cụ thể
  • Nghiên cứu Thị trường: Theo dõi xu hướng và phát triển trong ngành
  • Tìm kiếm Khách hàng Tiềm năng: Tìm và phân tích cơ hội kinh doanh tiềm năng
  • Giám sát SEO: Theo dõi thay đổi kết quả tìm kiếm cho từ khóa mục tiêu
  • Tự động hóa Nghiên cứu: Thu thập và tóm tắt nội dung học thuật hoặc công nghiệp

Kết luận

Quy trình làm việc tự động này kết hợp sức mạnh của Tìm kiếm Google của ScrapelessWebUnlocker với khả năng phân tích của Claude AI, tất cả được tổ chức qua giao diện hình ảnh của Make. Kết quả là một hệ thống phát hiện nội dung thông minh tự động chạy và cung cấp dữ liệu được phân tích, làm giàu trực tiếp đến nền tảng bạn ưa thích qua webhook.

Quy trình làm việc sẽ chạy theo lịch trình của bạn, tự động khám phá, lấy dữ liệu, phân tích và cung cấp các thông tin nội dung liên quan mà không cần sự can thiệp thủ công.

Đã đến lúc xây dựng Ajent AI đầu tiên của bạn trên Make sử dụng Scrapeless!

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục