Cách Xây Dựng Một Đại Lý Tìm Việc Tự Động Với Scrapeless và Google Sheets

Advanced Data Extraction Specialist
Cập nhật thông tin việc làm mới là rất quan trọng đối với những người tìm việc, nhà tuyển dụng và những người đam mê công nghệ. Thay vì kiểm tra thủ công các trang web, bạn có thể tự động hóa toàn bộ quy trình—thu thập thông tin từ các bảng việc làm theo định kỳ và lưu kết quả vào Google Sheets để dễ dàng theo dõi và chia sẻ.
Hướng dẫn này sẽ chỉ cho bạn cách xây dựng một tác nhân tìm việc tự động sử dụng Scrapeless, n8n và Google Sheets. Bạn sẽ tạo một quy trình làm việc thu thập danh sách việc làm từ trang Y Combinator Jobs mỗi 6 giờ, trích xuất dữ liệu có cấu trúc và lưu trữ nó vào một bảng tính.
Yêu cầu trước khi bắt đầu
Trước khi bạn bắt đầu, hãy chắc chắn rằng bạn đã có:
- n8n: Nền tảng tự động hóa không mã (tự lưu trữ hoặc đám mây).
- Scrapeless API: Lấy khóa API của bạn từ Scrapeless.
- Đăng nhập vào Bảng điều khiển Scrapeless.
- Sau đó nhấp vào "Cài đặt" ở bên trái -> chọn "Quản lý khóa API" -> nhấp vào "Tạo khóa API". Cuối cùng, nhấp vào khóa API bạn đã tạo để sao chép nó.

- Tài khoản Google Sheets: Để lưu trữ và xem dữ liệu việc làm.
- Trang web mục tiêu: Ví dụ này sử dụng trang Y Combinator Jobs.
Cách xây dựng một tác nhân tìm việc tự động với Scrapeless và Google Sheets
1. Lập lịch kích hoạt: Chạy mỗi 6 giờ
Loại nút: Kích hoạt theo lịch
Cài đặt:
- Trường khoảng thời gian:
giờ
- Giá trị khoảng thời gian:
6

Nút này đảm bảo rằng quy trình làm việc của bạn chạy tự động mỗi 6 giờ mà không cần nhập liệu thủ công.
2. Bộ thu thập Scrapeless: Thu thập danh sách việc làm
Loại nút: Nút Scrapeless
Cài đặt:
- Tài nguyên:
crawler
- Hoạt động:
crawl
- URL:
https://www.ycombinator.com/jobs
- Giới hạn số trang thu thập: 2
- Tài khoản:
Khóa API Scrapeless của bạn

Đầu ra: Một mảng các đối tượng chứa dữ liệu việc làm phong phú ở định dạng Markdown.
3. Trích xuất nội dung Markdown
Loại nút: Nút mã JavaScript
Mục đích: Chỉ trích xuất trường markdown
từ kết quả thu thập thô.
const raw = items[0].json;
const output = raw.map(obj => ({
json: {
markdown: obj.markdown,
}
}));
return output;

4. Phân tích Markdown: Trích xuất phần giới thiệu và danh sách việc làm
Loại nút: Nút mã JavaScript
Mục đích: Chia nhỏ Markdown thành một phần giới thiệu và một danh sách có cấu trúc các tiêu đề và liên kết việc làm.
return items.map(item => {
const md = item.json.markdown;
const splitRegex = /^#{1,3}\s*.+jobs added recently\s*$/im;
const parts = md.split(splitRegex);
const introSectionRaw = parts[0] || '';
const jobsSectionRaw = parts.slice(1).join('') || '';
const intro = introSectionRaw.replace(/^#+\s*/gm, '').trim();
const jobs = [];
const re = /\-\s*\[(?!\!)([^\]]+)\]\((https?:\/\/[^\)]+)\)/g;
let match;
while ((match = re.exec(jobsSectionRaw))) {
jobs.push({
title: match[1].trim(),
link: match[2].trim(),
});
}
return {
json: {
intro,
jobs,
},
};
});

5. Làm phẳng danh sách việc làm để xuất khẩu
Loại nút: Nút mã JavaScript
Mục đích: Chuyển đổi mỗi việc làm thành một hàng riêng biệt để dễ dàng xuất khẩu.
const output = [];
items.forEach(item => {
const intro = item.json.intro;
const jobs = item.json.jobs || [];
jobs.forEach(job => {
output.push({
json: {
intro,
jobTitle: job.title,
jobLink: job.link,
},
});
});
});
return output;

6. Cập nhật vào Google Sheets
Loại nút: Nút Google Sheets
Cài đặt:
- Hoạt động:
append
- URL tài liệu: Bạn cũng có thể trực tiếp chọn tên của Google Sheet bạn đã tạo (phương pháp được khuyến nghị)
- Tên bảng:
Links
(ID Tab:gid=0
) - Ánh xạ cột:
title
←{{ $json.jobTitle }}
link
←{{ $json.jobLink }}
- Chuyển đổi kiểu:
false
- OAuth: Kết nối tài khoản Google Sheets của bạn
Dữ liệu cuối cùng sẽ tự động được cập nhật vào bảng tính của bạn để theo dõi hoặc phân tích thêm.

7. Ví dụ kết quả đầu ra

Sơ đồ quy trình làm việc


Mỗi nút đều có thể tùy chỉnh và linh hoạt. Bạn có thể thay đổi trang web, tần suất quét, hoặc logic định dạng dữ liệu theo nhu cầu.
Ý Tưởng Tùy Chỉnh
- Quét Thêm Nhiều Trang: Thay thế URL bằng LinkedIn, AngelList, hoặc các bảng việc làm khác.
- Thêm Thông Báo: Gửi cập nhật việc làm tới Slack, Discord, hoặc email.
- Nâng Cao với AI: Sử dụng các nút GPT để tạo ra tóm tắt công việc hoặc thẻ từ khóa.
Các Tình Huống Kinh Doanh Áp Dụng
Đại lý tìm việc tự động này có thể áp dụng cho nhiều tình huống kinh doanh khác nhau, bao gồm:
- Các Cơ Quan Tuyển Dụng: Theo dõi liên tục các bảng việc làm ngách và trang sự nghiệp của công ty để khám phá các cơ hội mới cho nguồn nhân lực của họ.
- Các Vườn Ươm & Tăng Tốc Khởi Nghiệp: Theo dõi hoạt động tuyển dụng của các công ty trong danh mục (như các khởi nghiệp Y Combinator) và cập nhật thông tin về nhu cầu thị trường.
- Đội Ngũ Nhân Sự & Tài Năng: Tự động hóa việc thu thập thông tin cạnh tranh bằng cách theo dõi các tin tuyển dụng từ các công ty đối thủ hoặc các nhà lãnh đạo trong ngành.
- Các Nền Tảng Tổng Hợp Việc Làm: Tập hợp việc làm từ nhiều nguồn khác nhau và đơn giản hóa việc xuất bản lên các nền tảng của họ mà không cần quét thủ công.
- Cộng Đồng Freelancer & Làm Việc Từ Xa: Tập hợp các danh sách việc làm mới cho bản tin, diễn đàn cộng đồng, hoặc các bảng việc làm nhắm đến các đối tượng cụ thể.
- Các Đội Ngũ Nghiên Cứu Thị Trường: Phân tích xu hướng tuyển dụng trên các ngành để thu được thông tin về tăng trưởng thị trường, các công nghệ đang được yêu cầu, hoặc các vai trò mới nổi.
Quy trình này đặc biệt hữu ích cho các công ty cần thông tin thị trường việc làm thường xuyên, có cấu trúc và có thể mở rộng, tiết kiệm hàng giờ công sức thủ công và đảm bảo độ chính xác của dữ liệu.
Quy Trình Đại Lý Tìm Việc Tự Động
Kết Luận
Với Scrapeless, n8n và Google Sheets, bạn có thể dễ dàng xây dựng một đại lý tìm việc hoàn toàn tự động quét danh sách việc làm, làm sạch dữ liệu và lưu trữ vào bảng tính. Cài đặt này linh hoạt, tiết kiệm chi phí và lý tưởng cho các cá nhân, nhà tuyển dụng, hoặc các đội ngũ muốn theo dõi việc làm theo thời gian thực mà không cần công sức thủ công.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.