Cách sử dụng Python để thu thập dữ liệu đánh giá sản phẩm trên Google

Advanced Data Extraction Specialist
Khi làn sóng kỹ thuật số quét khắp thế giới, Google, với tư cách là một trong những công cụ tìm kiếm lớn nhất thế giới, ẩn chứa một lượng dữ liệu có giá trị khổng lồ trong trang kết quả tìm kiếm (SERP) của mình. Dữ liệu này không chỉ là một danh sách thông tin đơn giản, mà còn là chìa khóa để hiểu rõ về động lực thị trường, phân tích đối thủ cạnh tranh và hiểu biết về hành vi người tiêu dùng.
Tuy nhiên, việc thu thập dữ liệu kết quả tìm kiếm của Google một cách hiệu quả và hiệu suất cao không phải là dễ dàng. Cấu trúc trang của Sản phẩm Google phức tạp và luôn thay đổi, đồng thời có cơ chế chống thu thập dữ liệu mạnh mẽ, khiến các phương pháp thu thập dữ liệu truyền thống thường khó hoạt động. Để đáp ứng những thách thức này, một đường dẫn dữ liệu mạnh mẽ, có khả năng mở rộng và linh hoạt có thể thích ứng với những thay đổi về cấu trúc của Google là đặc biệt quan trọng. Cho dù bạn có kế hoạch xây dựng mô hình ngôn ngữ lớn (LLM) của riêng mình hay muốn có được những hiểu biết trực tiếp từ người tiêu dùng trên thị trường, một trình thu thập dữ liệu tìm kiếm Google đáng tin cậy là điều không thể thiếu.
Trong bài viết này, chúng ta sẽ tập trung vào cách sử dụng Python và thư viện BeautifulSoup để xây dựng một trình thu thập dữ liệu kết quả đánh giá sản phẩm Google từ đầu. Với công cụ này, bạn sẽ có thể tự động trích xuất dữ liệu có giá trị và khai thác những hiểu biết có thể được sử dụng trực tiếp cho việc ra quyết định từ đại dương dữ liệu của công cụ tìm kiếm.
Trường hợp sử dụng của việc thu thập dữ liệu kết quả sản phẩm Google
Việc thu thập dữ liệu kết quả sản phẩm Google đã trở thành một phương tiện quan trọng đối với các công ty và nhà nghiên cứu để thu được những hiểu biết về thị trường. Bằng cách phân tích dữ liệu này, các công ty có thể hiểu được xu hướng thị trường, sở thích của người tiêu dùng và động lực cạnh tranh, từ đó phát triển các chiến lược kinh doanh hiệu quả hơn. Dưới đây là một số kịch bản sử dụng phổ biến:
- Nghiên cứu thị trường và phân tích xu hướng
- Phân tích đối thủ cạnh tranh
- Phát triển và tối ưu hóa sản phẩm
- Hiểu biết về hành vi người tiêu dùng
- Giám sát và điều chỉnh giá cả
- Bảo vệ thương hiệu và quản lý danh tiếng
- Thương mại điện tử và tối ưu hóa bán lẻ trực tuyến
- Nghiên cứu học thuật và phân tích dữ liệu
- Lập và giám sát chính sách công
Khó khăn trong việc thu thập dữ liệu đánh giá sản phẩm Google
Việc trích xuất đánh giá sản phẩm Google đặt ra một số thách thức, bao gồm:
Các biện pháp chống thu thập dữ liệu
- Google sử dụng CAPTCHA và chặn IP để ngăn chặn bot.
- Cần proxy và luân phiên user-agent để bỏ qua.
Nội dung động và được hiển thị bằng JavaScript
- Đánh giá tải động thông qua JavaScript.
- Cần các công cụ như Puppeteer hoặc Selenium để trích xuất dữ liệu.
Thay đổi cấu trúc DOM thường xuyên
- Google cập nhật cấu trúc HTML của mình thường xuyên.
- Trình thu thập dữ liệu yêu cầu bảo trì liên tục.
Phương pháp 1: Thu thập dữ liệu kết quả đánh giá sản phẩm Google với Scrapeless
Việc thu thập dữ liệu đánh giá sản phẩm Google bằng Python yêu cầu xử lý các thách thức như tải nội dung động và các cơ chế chống thu thập dữ liệu. Phần này sẽ khám phá các phương pháp và công cụ hiệu quả để trích xuất dữ liệu đánh giá một cách hiệu quả.
Bước 1: Xây dựng môi trường thu thập dữ liệu sản phẩm Google
Đầu tiên, chúng ta cần xây dựng một môi trường thu thập dữ liệu và chuẩn bị các công cụ sau:
1. Python: Đây là phần mềm cốt lõi để chạy Python. Bạn có thể tải xuống phiên bản chúng ta cần từ liên kết trang web chính thức, như hình dưới đây, nhưng khuyến nghị không nên tải xuống phiên bản mới nhất. Bạn có thể tải xuống 1-2 phiên bản trước phiên bản mới nhất.

2. Python IDE: Bất kỳ IDE nào hỗ trợ Python đều được, nhưng chúng tôi khuyên dùng PyCharm, đây là một phần mềm công cụ phát triển IDE được thiết kế dành riêng cho Python. Về phiên bản PyCharm, chúng tôi khuyên dùng phiên bản PyCharm Community Edition miễn phí.

3. Pip: Bạn có thể sử dụng Python Package Index để cài đặt các thư viện cần thiết để chạy chương trình của bạn chỉ với một lệnh.
Lưu ý: Nếu bạn là người dùng Windows, đừng quên chọn tùy chọn "Add python.exe to PATH" trong trình hướng dẫn cài đặt. Điều này sẽ cho phép Windows sử dụng Python và các lệnh trong terminal. Vì Python 3.4 trở lên đã bao gồm nó theo mặc định, bạn không cần phải cài đặt thủ công.
Thông qua các bước trên, môi trường thu thập dữ liệu sản phẩm Google đã được thiết lập. Tiếp theo, bạn có thể sử dụng PyCharm đã tải xuống kết hợp với Scraperless để thu thập dữ liệu sản phẩm Google.
Bước 2: Sử dụng PyCharm và Scrapeless để thu thập dữ liệu sản phẩm Google
-
Khởi chạy PyCharm và chọn File>New Project… từ thanh menu.
-
Sau đó, trong cửa sổ bật lên, chọn Pure Python từ menu bên trái và thiết lập dự án của bạn như sau:
Lưu ý: Trong hộp màu đỏ bên dưới, hãy chọn đường dẫn cài đặt Python đã tải xuống ở bước đầu tiên của cấu hình môi trường

- Bạn có thể tạo một dự án có tên python-scraper, chọn tùy chọn "Create main.py welcome script option in the folder" và nhấp vào nút "Create". Sau khi PyCharm thiết lập dự án trong một lúc, bạn sẽ thấy như sau:

-
Sau đó, nhấp chuột phải để tạo một tệp Python mới.
-
Để xác minh rằng mọi thứ đều hoạt động chính xác, hãy mở tab Terminal ở cuối màn hình và nhập: python main.py. Sau khi chạy lệnh này, bạn sẽ nhận được: Hi, PyCharm.
Bước 3: Lấy khóa API Scrapeless
Bây giờ bạn có thể trực tiếp sao chép mã Scrapeless vào PyCharm và chạy nó, để bạn có thể nhận được dữ liệu định dạng JSON của Google Job. Tuy nhiên, bạn cần lấy khóa API Scrapeless trước. Các bước như sau:
- Nếu bạn chưa có tài khoản, vui lòng đăng ký Scrapeless. Sau khi đăng ký, hãy đăng nhập vào bảng điều khiển của bạn.
- Trong bảng điều khiển Scrapeless của bạn, điều hướng đến Quản lý khóa API và nhấp vào Tạo khóa API. Bạn sẽ nhận được Khóa API của mình. Chỉ cần đặt chuột lên và nhấp vào nó để sao chép. Khóa này sẽ được sử dụng để xác thực yêu cầu của bạn khi gọi API Scrapeless.
Chúng tôi bảo vệ mạnh mẽ quyền riêng tư của trang web. Tất cả dữ liệu trong blog này đều công khai và chỉ được sử dụng để minh họa quá trình thu thập dữ liệu. Chúng tôi không lưu trữ bất kỳ thông tin và dữ liệu nào.

Tham gia Scrapeless và nhận 20.000 truy vấn miễn phí!
Đăng ký Scrapeless ngay hôm nay và tận hưởng 20.000 truy vấn miễn phí! Bắt đầu thu thập dữ liệu đánh giá sản phẩm Google và mở khóa những hiểu biết có giá trị một cách dễ dàng. Đừng bỏ lỡ—đăng ký ngay và trải nghiệm sức mạnh của Scrapeless miễn phí!
Bước 4: Cách tích hợp API Scrapeless vào công cụ thu thập dữ liệu của bạn
Sau khi có khóa API, bạn có thể bắt đầu tích hợp API Scrapeless vào công cụ thu thập dữ liệu của riêng mình. Dưới đây là một ví dụ về cách gọi API Scrapeless và truy xuất dữ liệu bằng Python và requests.
Mã mẫu để thu thập thông tin sản phẩm Google bằng API Scrapeless:
import json
import requests
class Payload:
def __init__(self, actor, input_data):
self.actor = actor
self.input = input_data
def send_request():
host = "api.scrapeless.com"
url = f"https://{host}/api/v1/scraper/request"
token = "your_token"
headers = {
"x-api-token": token
}
input_data = {
"engine": "google_product",
"product_id": "4172129135583325756",
"gl": "us",
"hl": "en",
}
payload = Payload("scraper.google.product", input_data)
json_payload = json.dumps(payload.__dict__)
response = requests.post(url, headers=headers, data=json_payload)
if response.status_code != 200:
print("Error:", response.status_code, response.text)
return
print("body", response.text)
if __name__ == "__main__":
send_request()
Dựa trên đầu ra của mã này, bạn có thể tìm thấy tất cả thông tin về đánh giá sản phẩm Google.
Bạn cũng có thể tham khảo tài liệu tham số API Scrapeless chính thức
Dưới đây là danh sách một phần kết quả, bao gồm thông tin bình luận của người dùng.
body {"product_results":{"product_id":"4172129135583325756","title":"Apple iPhone 12 Pro - 128 GB - Silver - AT\u0026T","price":["$314.84","$298.00","$325.33"],"reviews":14303,"rating":4.4,"extensions":["Smartphone","Dual SIM","5G","With Wireless Charging","With Fast Charging","AT\u0026T","Dual Lens","iOS","GSM","CDMA"],"description":"5G goes Pro. A14 Bionic rockets past every other smartphone chip. The iPhone 12 Pro features a 6.1” Super Retina XDR display, LiDAR scanner for ultrafast and accurate depth maps of whatever space you're in and MagSafe wireless charging. The Pro camera system takes low-light ...More5G goes Pro. A14 Bionic rockets past every other smartphone chip. The iPhone 12 Pro features a 6.1” Super Retina XDR display, LiDAR scanner for ultrafast and accurate depth maps of whatever space you're in and MagSafe wireless charging. The Pro camera system takes low-light photography to the next level with Night mode available in both the Wide and Ultra Wide cameras, so it’s better than ever at capturing incredible low-light shots. And Ceramic Shield delivers four times better drop performance.Less","media":[{"type":"image","link":"https://encrypted-tbn0.gstatic.com/shopping?q=tbn:ANd9GcStw-jdTZtGmdXcVKCqweq6wxzU5tpRTTbl6stPV97GpGVR6XY\u0026usqp=CAY"},{"type":"image","link":"https://encrypted-tbn1.gstatic.com/shopping?q=tbn:ANd9GcR0wJ1fsUOPAGDMtjdtx1zsd5ZWUXwnNe70fmZszERkEihkYCKnZoGJ3Y4lqSQTyR4soiTVWFVzllzYTHJBTRXegTR7Pj83RA\u0026usqp=CAY"},{"type":"image","link":"https://encrypted-tbn1.gstatic.com/shopping?q=tbn:ANd9GcR4L66Gss9O5HSL00NLxaHu0pl5huMUojbC9tO9FKCRpCQObUqdHWsSPYZJ4lU8eETn-MlJx4Hni_oc_l5mxIs_l-Z2htBiaA\u0026usqp=CAY"},{"type":"image","link":"https://encrypted-tbn0.gstatic.com/shopping?q=tbn:ANd9GcQLv5xOi-9b-Mka7jfFnQzlXkTrEAsjPAzumbUB2D6Ddgl3FHGZOQXAUGQAv6WkUeZsbsdvKA2NRF1-h8EOBSQPLmuPMLPQ2Q\u0026usqp=CAY"}],"sizes":{"128 GB":{"link":"https://www.google.com/shopping/product/4172129135583325756?gl=us\u0026hl=en\u0026sourceid=chrome\u0026ie=UTF-8","product_id":"4172129135583325756"},"256 GB":{"link":"https://www.google.com/shopping/product/1700752269234454309?gl=us\u0026hl=en\u0026sourceid=chrome\u0026ie=UTF-8\u0026prds=opd:11579479524734831751,rsk:PC_14243855303706753583\u0026sa=X\u0026ved=0ahUKEwjxhNXT2ZeMAxVcK7kGHUh1ErMQlIUHCEQoAQ","product_id":"1700752269234454309"},"512 GB":{"link":"https://www.google.com/shopping/product/14752474427020499512?gl=us\u0026hl=en\u0026sourceid=chrome\u0026ie=UTF-8\u0026prds=opd:11579479524734831751,rsk:PC_14243855303706753583\u0026sa=X\u0026ved=0ahUKEwjxhNXT2ZeMAxVcK7kGHUh1ErMQlIUHCEUoAg","product_id":"14752474427020499512"}},"highlight":["5G transforms iPhone with accelerated wireless speeds and better performance on congested networks","A14 Bionic: generations ahead of any other smartphone chip","Night mode comes to both the Wide and Ultra Wide cameras, and it's better than ever at capturing incredible low-light shots",
Tại sao sử dụng Scrapeless để thu thập dữ liệu đánh giá sản phẩm Google

- Giá cả phải chăng: Chỉ với 0,1 đô la cho 1.000 truy vấn, Scrapeless cung cấp giải pháp tiết kiệm chi phí cao cho các doanh nghiệp cần mở rộng quy mô thu thập dữ liệu mà không làm ảnh hưởng đến ngân sách.
- Nhanh chóng và đáng tin cậy: Với thời gian phản hồi dưới 3 giây, Scrapeless cung cấp kết quả thời gian thực, đảm bảo bạn nhận được dữ liệu cần thiết một cách nhanh chóng và hiệu quả—điều cần thiết cho môi trường kinh doanh nhanh chóng.
- Dễ sử dụng: Scrapeless có giao diện trực quan cho phép các nhóm có chuyên môn kỹ thuật hạn chế bắt đầu với thiết lập tối thiểu, giảm nhu cầu đào tạo chuyên sâu.
- Thu thập dữ liệu có thể mở rộng: Cho dù bạn đang thu thập dữ liệu cho một dự án nhỏ hay phân tích cấp độ doanh nghiệp, Scrapeless sẽ mở rộng theo nhu cầu kinh doanh của bạn, cho phép bạn xử lý khối lượng truy vấn lớn mà không gặp sự cố.
- Thu thập dữ liệu tùy chỉnh: Scrapeless cho phép bạn điều chỉnh việc trích xuất dữ liệu cho phù hợp với nhu cầu cụ thể—cho dù bạn đang nhắm mục tiêu các sản phẩm, khu vực hoặc loại đánh giá cụ thể, điều này mang lại sự linh hoạt để thu thập những hiểu biết phù hợp nhất.
- Nâng cao việc ra quyết định: Scrapeless giúp các doanh nghiệp có được những hiểu biết có giá trị từ đánh giá sản phẩm Google, hỗ trợ phân tích tâm lý khách hàng và các quyết định cải tiến sản phẩm. Điều này đặc biệt quan trọng đối với các doanh nghiệp đang tìm cách duy trì khả năng cạnh tranh.
- Tích hợp liền mạch: Với các tùy chọn để tích hợp Scrapeless với các công cụ kinh doanh khác, nhóm của bạn có thể trực tiếp phân tích dữ liệu đã thu thập trong các hệ thống hiện có của mình, giúp dễ dàng hành động dựa trên những hiểu biết một cách nhanh chóng.
Tham gia cộng đồng Discord của chúng tôi và kết nối với khách hàng TOB!
Tham gia cộng đồng Discord của chúng tôi để kết nối với các khách hàng TOB khác, chia sẻ những hiểu biết và thảo luận về chiến lược. Thêm vào đó, hãy truy cập trực tiếp nhóm của chúng tôi để được hỗ trợ cá nhân hóa—cho dù bạn cần giải pháp tùy chỉnh, kiểm tra dữ liệu hay hướng dẫn. Đừng bỏ lỡ cơ hội này để nâng cao trải nghiệm Scrapeless của bạn!
Phương pháp 2: Thu thập dữ liệu đánh giá sản phẩm Google bằng Python và Selenium
Điều kiện tiên quyết
Trước khi bắt đầu, hãy đảm bảo bạn có những điều sau:
- Python đã cài đặt (khuyến nghị 3.x)
- Google Chrome và ChromeDriver
- Các thư viện Python cần thiết:
pip install selenium beautifulsoup4 pandas
Bước 1: Thiết lập Selenium WebDriver
Selenium cho phép chúng ta tự động hóa các tương tác trên web. Đầu tiên, chúng ta cần khởi tạo Chrome WebDriver:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
service = Service('path/to/chromedriver') # Cập nhật với đường dẫn chính xác
options = webdriver.ChromeOptions()
options.add_argument('--headless') # Chạy ở chế độ ẩn
driver = webdriver.Chrome(service=service, options=options)
driver.get('https://www.google.com/shopping/product/1234567890/reviews') # URL ví dụ
Bước 2: Trích xuất dữ liệu đánh giá
Chúng ta sử dụng BeautifulSoup để phân tích cú pháp nguồn trang và trích xuất chi tiết đánh giá.
from bs4 import BeautifulSoup
def extract_reviews(driver):
soup = BeautifulSoup(driver.page_source, 'html.parser')
reviews = []
for review in soup.find_all('div', class_='sh-dgr__content'):
rating = review.find('div', class_='sh-dgr__rating')
text = review.find('div', class_='sh-dgr__review-text')
if rating and text:
reviews.append({
'rating': rating.text.strip(),
'review': text.text.strip()
})
return reviews
data = extract_reviews(driver)
print(data)
Bước 3: Tự động hóa phân trang
Nếu có nhiều trang đánh giá, chúng ta cần tự động hóa phân trang.
def scrape_multiple_pages(driver):
all_reviews = []
while True:
all_reviews.extend(extract_reviews(driver))
try:
next_button = driver.find_element(By.XPATH, '//a[@aria-label="Next page"]')
next_button.click()
time.sleep(2) # Chờ trang mới tải
except:
break
return all_reviews
data = scrape_multiple_pages(driver)
print(f'Tổng số đánh giá đã thu thập: {len(data)}')
Bước 4: Lưu dữ liệu vào CSV
Sau khi thu thập dữ liệu, chúng ta có thể lưu nó để phân tích thêm.
import pandas as pd
df = pd.DataFrame(data)
df.to_csv('google_reviews.csv', index=False)
print('Đánh giá đã được lưu vào google_reviews.csv')
So sánh: Scrapeless so với Selenium + BeautifulSoup để thu thập dữ liệu đánh giá sản phẩm Google
Đây là bảng so sánh nhấn mạnh lý do tại sao Scrapeless là lựa chọn tốt hơn để thu thập dữ liệu đánh giá sản phẩm Google:
Khía cạnh | Scrapeless 🚀 (Được đề xuất) | Selenium + BeautifulSoup ⚙️ (Phương pháp truyền thống) |
---|---|---|
Dễ sử dụng | Không cần mã hóa, chỉ cần gọi API | Yêu cầu viết và duy trì mã Python |
Các biện pháp chống thu thập dữ liệu | Cơ chế bỏ qua tích hợp sẵn | Dễ dàng bị Google phát hiện, có thể bị chặn |
Tốc độ | Dựa trên đám mây, thu thập dữ liệu nhanh hơn | Chạy cục bộ, chậm hơn do tải trang |
Chi phí bảo trì | Không cần bảo trì, Scrapeless xử lý cập nhật trang web | Cần cập nhật mã thường xuyên cho các thay đổi trang |
Chất lượng dữ liệu | Dữ liệu có cấu trúc, đầu ra JSON/CSV | Yêu cầu phân tích cú pháp HTML thủ công, có thể không nhất quán |
Thu thập dữ liệu nhiều trang | Xử lý phân trang tự động | Yêu cầu mã hóa thủ công cho phân trang |
Thiết lập môi trường | Không cần thêm phần mềm, dựa trên API | Yêu cầu ChromeDriver và thiết lập phức tạp |
Kết luận
Scrapeless, Selenium và Scrapy đều là những giải pháp khả thi để thu thập dữ liệu đánh giá sản phẩm Google, nhưng mỗi giải pháp có những ưu điểm và nhược điểm riêng:
- Scrapeless là tùy chọn đơn giản và hiệu quả nhất, đặc biệt là trong các trường hợp bạn cần nhanh chóng thu được dữ liệu có cấu trúc. Nó có thể tự động xử lý các cơ chế chống thu thập dữ liệu và tải nội dung động.
- Selenium cung cấp khả năng xử lý nội dung động mạnh mẽ, nhưng có hiệu suất thấp, chi phí bảo trì cao và dễ bị phát hiện.
- Scrapy là một khung công tác thu thập dữ liệu hiệu quả phù hợp với việc thu thập dữ liệu quy mô lớn, nhưng nó khó xử lý nội dung động và có đường cong học tập dốc.
Nhìn chung, nếu bạn muốn nhanh chóng, hiệu quả và ổn định thu được dữ liệu đánh giá sản phẩm Google, Scrapeless là lựa chọn tốt nhất. Nó không chỉ đơn giản hóa quá trình thu thập dữ liệu, mà còn tránh được công việc phát triển và bảo trì phức tạp. Khi sử dụng bất kỳ công cụ nào, hãy đảm bảo tuân thủ Điều khoản dịch vụ của Google để tránh những rủi ro pháp lý không cần thiết.
Sẵn sàng nâng cấp việc thu thập dữ liệu của bạn lên cấp độ tiếp theo?
Đừng để doanh nghiệp của bạn tụt hậu! Đăng ký Scrapeless ngay hôm nay và bắt đầu thu thập dữ liệu đánh giá sản phẩm Google một cách dễ dàng. Chỉ với một vài cuộc gọi API đơn giản, bạn có thể truy cập những hiểu biết có giá trị để cải thiện việc phát triển sản phẩm và tương tác với khách hàng. Thêm vào đó, Scrapeless không chỉ giới hạn ở đánh giá—hãy sử dụng nó để thu thập dữ liệu trên nhiều nền tảng, phân tích đối thủ cạnh tranh, theo dõi xu hướng và hơn thế nữa!
Tham gia ngay và nhận 20.000 truy vấn miễn phí để khám phá tất cả các tính năng mạnh mẽ mà Scrapeless cung cấp. Cho dù bạn đang kinh doanh thương mại điện tử, tiếp thị hay nghiên cứu, Scrapeless là công cụ dành cho bạn để trích xuất dữ liệu hiệu quả, có thể mở rộng và tùy chỉnh.
Đăng ký ngay bây giờ và thấy sự khác biệt mà nó tạo ra cho doanh nghiệp của bạn!
Tài nguyên khác
Bạn cũng có thể quan tâm đến việc thu thập dữ liệu sau, chào mừng bạn thảo luận với chúng tôi.
- Cách thu thập dữ liệu ứng dụng Google Play Store bằng Python
- Cách sử dụng Undetected ChromeDriver để thu thập dữ liệu web
- Cách thu thập dữ liệu báo giá chứng khoán Google Finance bằng Python
- Cách bỏ qua Cloudflare với Puppeteer
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.