Cách trích xuất dữ liệu sản phẩm từ Google Lens?

Specialist in Anti-Bot Strategies
Google Lens là một công cụ miễn phí cho phép bạn phân tích hình ảnh để trích xuất dữ liệu như văn bản và nhận dạng các đối tượng, người, động vật, thực vật, v.v. Bạn cũng có thể sử dụng nó để tìm kiếm các kết quả hình ảnh tương tự với hình ảnh đã cung cấp.
Công cụ mạnh mẽ này rất hữu ích cho cả người tiêu dùng và doanh nghiệp, cung cấp thông tin chi tiết về tình trạng sẵn có của sản phẩm, giá cả và đánh giá. Tuy nhiên, việc trích xuất dữ liệu thủ công từ Google Lens có thể tốn nhiều thời gian và không hiệu quả.
Hướng dẫn này sẽ hướng dẫn bạn quy trình thu thập dữ liệu kết quả sản phẩm của Google Lens bằng Scrapeless Google Lens API, cung cấp cho bạn các công cụ và kỹ thuật để tự động hóa tác vụ này một cách hiệu quả.
Cứ tiếp tục cuộn xuống!
Hiểu về Tìm kiếm Sản phẩm của Google Lens
Google Lens sử dụng công nghệ nhận dạng hình ảnh tiên tiến để nhận dạng sản phẩm trong hình ảnh. Khi một sản phẩm được nhận dạng, Google Lens sẽ hiển thị một danh sách các kết quả liên quan, bao gồm tên sản phẩm, giá cả, nhà bán lẻ và đánh giá. Dữ liệu này rất quan trọng cho nghiên cứu thị trường, so sánh giá cả và phân tích đối thủ cạnh tranh.
Tuy nhiên, bản chất động của Google Lens và các biện pháp chống thu thập dữ liệu tiềm ẩn làm cho việc trích xuất dữ liệu tự động trở nên khó khăn.

Thách thức trong việc Thu thập dữ liệu Google Lens
- Nội dung động: Google Lens dựa vào JavaScript để tải dữ liệu một cách động. Sử dụng các công cụ như Selenium hoặc Puppeteer để đảm bảo trình thu thập dữ liệu của bạn chờ tất cả các phần tử được tải trước khi trích xuất thông tin.
- Các biện pháp chống thu thập dữ liệu: Tránh bị phát hiện bằng cách luân phiên các user agent và sử dụng proxy để phân phối các yêu cầu trên nhiều IP.
- Hạn chế tốc độ: Gửi yêu cầu với tốc độ được kiểm soát để tránh bị cấm IP. Thêm độ trễ giữa các yêu cầu để bắt chước hành vi của con người.
Tại sao nên sử dụng API?
Có một số lý do tại sao bạn có thể muốn sử dụng API, đặc biệt là Scrapeless Google Lens API:
- Không cần tạo trình phân tích cú pháp từ đầu và bảo trì nó.
- Bỏ qua việc chặn của Google: giải quyết CAPTCHA hoặc giải quyết việc chặn IP.
- Trả tiền cho proxy và trình giải quyết CAPTCHA.
- Không cần sử dụng tự động hóa trình duyệt.
API Scrapeless xử lý mọi thứ ở phía back-end, thời gian phản hồi rất nhanh, ít hơn ~3,3 giây mỗi yêu cầu, và không cần tự động hóa trình duyệt, vì vậy nó sẽ nhanh hơn nhiều.
Cách thu thập dữ liệu kết quả sản phẩm của Google Lens?
Phản ứng đầu tiên của bạn có thể là cố gắng sử dụng lập trình để thực hiện tác vụ thu thập dữ liệu. Tuy nhiên, do những hạn chế về thời gian và năng lượng🚫. Hầu hết người dùng thông minh đã chọn sử dụng API rẻ và nhanh để hoàn thành việc trích xuất dữ liệu phức tạp. Nó có thể được hoàn thành với cấu hình đơn giản:
Điều kiện tiên quyết
Đầu tiên, hãy thiết lập kết nối với Google Lens API và sử dụng nguồn google_lens
. Bạn có thể làm theo hướng dẫn được cung cấp trong tài liệu của chúng tôi.
Bước 1: Tạo mã thông báo Google Lens API của bạn
Để bắt đầu, bạn cần lấy API Key của mình từ Scrapeless Dashboard:
- Đăng nhập vào Scrapeless Dashboard.
- Điều hướng đến Quản lý API Key.
- Nhấp vào Tạo để tạo API Key duy nhất của bạn.
- Sau khi tạo, chỉ cần nhấp vào API Key để sao chép nó.

Bước 2: Viết một script Python để tích hợp Scrapeless API
Python
import json
import requests
class Payload:
def __init__(self, actor, input_data):
self.actor = actor
self.input = input_data
def send_request():
host = "api.scrapeless.com"
url = f"https://{host}/api/v1/scraper/request"
token = "your_token"
headers = {
"x-api-token": token
}
input_data = {
"engine": "google_lens",
"hl": "en",
"country": "us",
"search_type": "products",
"url": "https://m.media-amazon.com/images/I/61iBtxCUabL._AC_UF894,1000_QL80_.jpg",
}
payload = Payload("scraper.google.lens", input_data)
json_payload = json.dumps(payload.__dict__)
response = requests.post(url, headers=headers, data=json_payload)
if response.status_code != 200:
print("Error:", response.status_code, response.text)
return
print("body", response.text)
if __name__ == "__main__":
send_request()
Phương pháp thay thế: Sử dụng Playground
Bạn cũng có thể chọn sử dụng Scrapeless Playground để hoàn thành việc trích xuất dữ liệu sản phẩm của Google Lens.
- Sau khi tạo mã thông báo API, nhấp vào Deep SerpApi
- Tìm actor Google Lens
- Thêm các tham số bạn cần để hoàn thành cấu hình yêu cầu.
- Nhấp vào Bắt đầu tìm kiếm và chờ kết quả tải.
- Xuất kết quả

Bước 3. Nhận kết quả thu thập dữ liệu
Dưới đây là một số kết quả thu thập dữ liệu, chỉ mang tính chất tham khảo minh họa:
JSON
{
"search_metadata": {
"status": "success",
"created_at": "2025-03-18 09:11:05 UTC",
"processed_at": "2025-03-18 09:11:05 UTC",
"google_lens_url": "https://lens.google.com/uploadbyurl?hl=en-sg&url=https%3A%2F%2Fm.media-amazon.com%2Fimages%2FI%2F61iBtxCUabL._AC_UF894%2C1000_QL80_.jpg",
"total_time_taken": 6.667
},
"search_parameters": {
"engine": "google_lens",
"url": "https://m.media-amazon.com/images/I/61iBtxCUabL._AC_UF894,1000_QL80_.jpg",
"search_type": "products"
},
"visual_matches": [
{
"position": 1,
"title": "Apple Airpods 4 : Target",
"link": "https://www.target.com/p/ap2022-true-wireless-bluetooth-headphones/-/A-85978615",
"currency": "USD",
"price": "$130*",
"extracted_price": 130,
"stock_information": "In stock",
"source": "Target",
...
Việc thu thập dữ liệu từ Google Lens có hợp pháp không?
Việc thu thập dữ liệu Google Lens không phải là bất hợp pháp, nhưng có nhiều hướng dẫn pháp lý và đạo đức cần được tuân theo. Người dùng phải hiểu Điều khoản dịch vụ của Google, luật bảo mật dữ liệu và quyền sở hữu trí tuệ để đảm bảo hoạt động của họ tuân thủ. Bằng cách tuân theo các thực tiễn tốt nhất và cập nhật thông tin về các diễn biến pháp lý, bạn có thể giảm thiểu rủi ro về các vấn đề pháp lý liên quan đến việc thu thập dữ liệu trên web.
Scrapeless Deep SerpAPI: Một giải pháp dữ liệu tìm kiếm thời gian thực mạnh mẽ
Deep SerpApi là một nền tảng dữ liệu tìm kiếm thời gian thực được thiết kế cho các ứng dụng AI và mô hình tạo ra tăng cường truy xuất (RAG), cung cấp dữ liệu kết quả tìm kiếm Google chính xác và có cấu trúc theo thời gian thực, hỗ trợ hơn 20 loại Google SERP, bao gồm Tìm kiếm Google, Xu hướng Google, Google Shopping, Google Flights, Google Hotels, Google Maps, v.v.
Deep SerpApi có những ưu điểm gì?
- Cập nhật dữ liệu thời gian thực: dựa trên cập nhật dữ liệu trong 24 giờ qua, đảm bảo tính kịp thời và chính xác của thông tin.
- Hỗ trợ đa ngôn ngữ và vị trí địa lý: hỗ trợ nhiều ngôn ngữ và vị trí địa lý, và có thể tùy chỉnh kết quả tìm kiếm dựa trên vị trí, loại thiết bị và ngôn ngữ của người dùng.
- Thời gian phản hồi 1-2 giây: Thời gian phản hồi trung bình chỉ 1-2 giây, phù hợp cho việc truy xuất dữ liệu tần suất cao và quy mô lớn.
- Tích hợp liền mạch: tương thích với các ngôn ngữ lập trình phổ biến như Python, Node.js, Golang, v.v., và có thể dễ dàng tích hợp vào các dự án hiện có.
- Hiệu suất chi phí cao: Giá chỉ 0,1 đô la cho 1.000 truy vấn, đây là giải pháp SERP hiệu quả nhất trên thị trường.
Nhận phần thưởng của bạn ngay bây giờ!
Chương trình Nhà phát triển được tài trợ đang được tiến hành! 100 người dùng đầu tiên nhận được 500.000 truy vấn gọi API miễn phí, hoàn hảo để kiểm tra và mở rộng quy mô dự án.
Bạn có thể tích hợp Deep SerpApi vào các công cụ AI, ứng dụng hoặc bất kỳ dự án nào bạn đang thực hiện. Chúng tôi hỗ trợ các framework như Dify (Langchain, Langflow, FlowiseAI, và nhiều framework khác sắp ra mắt!). Bạn cũng có thể tích hợp Scrapeless theo những cách phù hợp với dự án của mình.
Sau khi hoàn tất việc tích hợp, hãy chia sẻ tác phẩm của bạn với chúng tôi thông qua GitHub hoặc mạng xã hội, và cung cấp bằng chứng về việc tích hợp. Đổi lại, chúng tôi sẽ cung cấp cho bạn 500.000 truy vấn miễn phí trong 1 tháng để giúp bạn tối đa hóa lợi ích từ sản phẩm của chúng tôi.
Tham gia cộng đồng của chúng tôi và nhận chi tiết từ quản trị viên của chúng tôi: Emily Fann!
Kết luận
Hướng dẫn này giới thiệu cách sử dụng Google Lens API của Scrapeless để thu thập dữ liệu kết quả. Bằng cách làm theo các bước của chúng tôi, bạn có thể dễ dàng sử dụng API Scrapeless để thiết lập môi trường, trích xuất dữ liệu có liên quan và lưu nó vào một tệp để dễ dàng truy cập.
Ngoài ra, Scrapeless Deep SerpApi Playground giúp chúng ta tiết kiệm rất nhiều bước phức tạp không cần thiết. Bạn chỉ cần thực hiện cấu hình tham số đơn giản để có được kết quả dữ liệu chính xác.
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.