Cách Scrape Google News bằng Python

Advanced Data Extraction Specialist
Google News là gì?
Google News là một dịch vụ tổng hợp tin tức được ra mắt bởi Google. Nó thu thập, sắp xếp và hiển thị các bản tin tức mới nhất từ các trang web tin tức lớn trên toàn thế giới. Người dùng có thể lọc theo từ khóa, chủ đề, khu vực, nguồn xuất bản, v.v., và thuật toán Google News sẽ đề xuất nội dung tin tức cá nhân hóa dựa trên sở thích và thói quen duyệt web của người dùng.
Dữ liệu Google News chủ yếu đến từ các tổ chức tin tức uy tín, blog, thông báo của chính phủ, v.v., vì vậy nó là một nguồn thông tin thời gian thực toàn cầu quan trọng.
Bạn có thể lấy dữ liệu gì từ Google News?
-
Tiêu đề tin tức (title) – nội dung cốt lõi của bài viết
-
Liên kết tin tức (link) – URL nguồn gốc của bài viết
-
Ngày đăng (date) – thời gian bài viết được đăng (vài phút trước, vài giờ trước hoặc thời gian cụ thể)
-
Đoạn trích tin tức (snippet) – bản xem trước ngắn gọn về nội dung bài viết
-
Nguồn tin tức (source) – tổ chức truyền thông nơi bài viết được đăng, chẳng hạn như CNN, BBC, NYTimes
-
Danh mục tin tức (category) – danh mục mà bài viết thuộc về, chẳng hạn như công nghệ, thể thao, tài chính, sức khỏe, v.v.
-
Liên kết hình ảnh (thumbnail) – liên kết đến hình ảnh đi kèm với bài viết
-
Tin tức liên quan (related news) – liên kết đến các báo cáo tương tự hoặc liên quan
-
Nội dung video (video) – tin tức video được bao gồm
....
Tại sao phải thu thập dữ liệu Google News?
Có nhiều trường hợp ứng dụng thực tế để thu thập dữ liệu Google News. Dưới đây là một số cách sử dụng phổ biến nhất:
- Phân tích thị trường và thông tin kinh doanh
- Phân tích tài chính và đầu tư
- SEO và tiếp thị nội dung
- Nghiên cứu máy học và AI
- Ứng dụng tổng hợp truyền thông và tin tức
Cách thu thập dữ liệu Google News bằng Python
Bước 1: Xây dựng môi trường thu thập dữ liệu Google News
Đầu tiên, chúng ta cần xây dựng một môi trường thu thập dữ liệu và chuẩn bị các công cụ sau:
- Python: https://www.python.org/downloads/ Đây là phần mềm cốt lõi để chạy Python. Bạn có thể tải xuống phiên bản chúng ta cần từ liên kết trang web chính thức, như hình dưới đây, nhưng nên tránh tải xuống phiên bản mới nhất. Bạn có thể tải xuống phiên bản trước 1-2 phiên bản mới nhất.

- Python IDE: Bất kỳ IDE nào hỗ trợ Python đều được, nhưng chúng tôi khuyên dùng PyCharm, đây là phần mềm công cụ phát triển IDE được thiết kế đặc biệt cho Python. Về phiên bản PyCharm, chúng tôi khuyên dùng PyCharm Community Edition miễn phí.

- Pip: Bạn có thể sử dụng Python Package Index để cài đặt các thư viện cần thiết để chạy chương trình của mình chỉ với một lệnh duy nhất.

Lưu ý: Nếu bạn là người dùng Windows, đừng quên chọn tùy chọn "Thêm python.exe vào PATH" trong trình hướng dẫn cài đặt. Điều này sẽ cho phép Windows sử dụng Python và các lệnh trong terminal. Vì Python 3.4 trở lên đã bao gồm nó theo mặc định, nên bạn không cần phải cài đặt thủ công.

Thông qua các bước trên, môi trường để thu thập dữ liệu Google News đã được thiết lập. Tiếp theo, bạn có thể sử dụng PyCharm đã tải xuống kết hợp với Scraperless để thu thập dữ liệu Google News.
Bước 2: Sử dụng PyCharm và Scrapeless để thu thập dữ liệu Google News
- Khởi chạy PyCharm và chọn File>New Project… từ thanh menu.

- Sau đó, trong cửa sổ bật lên, chọn Pure Python từ menu bên trái và thiết lập dự án của bạn như sau:
Lưu ý: Trong hộp màu đỏ bên dưới, hãy chọn đường dẫn cài đặt Python đã tải xuống ở bước đầu tiên của cấu hình môi trường

- Bạn có thể tạo một dự án có tên python-scraper, đánh dấu vào tùy chọn "Tạo tập lệnh chào mừng main.py trong thư mục" và nhấp vào nút "Tạo". Sau khi PyCharm thiết lập dự án trong một thời gian, bạn sẽ thấy như sau:

- Sau đó, nhấp chuột phải để tạo một tệp Python mới.

- Để kiểm tra xem mọi thứ có hoạt động chính xác không, hãy mở tab Terminal ở cuối màn hình và nhập: python main.py. Sau khi khởi chạy lệnh này, bạn sẽ nhận được: Xin chào, PyCharm.
Bước 3: Lấy khóa API Scrapeless
Bây giờ bạn có thể trực tiếp sao chép mã Scrapeless vào PyCharm và chạy nó, vì vậy bạn có thể nhận được dữ liệu định dạng JSON của Google News. Tuy nhiên, trước tiên bạn cần lấy khóa API Scrapeless. Các bước như sau:
Nếu bạn chưa có tài khoản, vui lòng đăng ký Scrapeless. Sau khi đăng ký, hãy đăng nhập vào bảng điều khiển của bạn.

Trong bảng điều khiển Scrapeless của bạn, điều hướng đến Quản lý khóa API và nhấp vào Tạo khóa API. Bạn sẽ nhận được Khóa API của mình. Chỉ cần đặt chuột lên và nhấp vào nó để sao chép. Khóa này sẽ được sử dụng để xác thực yêu cầu của bạn khi gọi API Scrapeless.
Bước 4: Cách tích hợp API Scrapeless vào công cụ thu thập dữ liệu của bạn
Sau khi có khóa API, bạn có thể bắt đầu tích hợp API Scrapeless vào công cụ thu thập dữ liệu của riêng mình. Dưới đây là một ví dụ về cách gọi API Scrapeless và truy xuất dữ liệu bằng Python và requests.
Mã mẫu để thu thập thông tin Google News bằng API Scrapeless:
import json
import requests
class Payload:
def __init__(self, actor, input_data):
self.actor = actor
self.input = input_data
def send_request():
host = "api.scrapeless.com"
url = f"https://{host}/api/v1/scraper/request"
token = "your_token"
headers = {
"x-api-token": token
}
input_data = {
"engine": "google_news",
"q": "pizza",
"gl": "us",
"hl": "en",
}
payload = Payload("scraper.google.news", input_data)
json_payload = json.dumps(payload.__dict__)
response = requests.post(url, headers=headers, data=json_payload)
if response.status_code != 200:
print("Error:", response.status_code, response.text)
return
print("body", response.text)
if __name__ == "__main__":
send_request()
Mệt mỏi vì phải xử lý các khối IP, CAPTCHA và cấu trúc HTML liên tục thay đổi?
Với Scrapeless Google News API, bạn có thể bỏ qua các hạn chế, trích xuất dữ liệu tin tức thời gian thực và tiết kiệm hàng giờ thời gian phát triển — tất cả chỉ với một cuộc gọi API đơn giản!
Tại sao chọn Scrapeless thay vì tự thu thập dữ liệu?

✅ Giá siêu thấp, chỉ $0,1 cho 1.000 truy vấn
So với việc tự xây dựng trình thu thập dữ liệu, duy trì IP proxy và bỏ qua các cơ chế chống thu thập dữ liệu, giá của SerpApi rất cạnh tranh, chỉ $0,1 cho 1.000 truy vấn, điều này làm giảm đáng kể chi phí thu thập dữ liệu.
✅ Phản hồi siêu nhanh, trả về dữ liệu trong vòng 3 giây
Scrapeless có khả năng thu thập dữ liệu siêu nhanh và có thể trả về dữ liệu JSON có cấu trúc trong vòng 3 giây sau khi yêu cầu, nhanh hơn nhiều so với tốc độ xử lý của các trình thu thập dữ liệu truyền thống.
✅ Không cần bảo trì, không cần lo lắng về việc bị chặn IP & các cơ chế chống thu thập dữ liệu
Google sẽ phát hiện lưu lượng truy cập bất thường và chặn IP, và thậm chí yêu cầu xác minh mã xác thực. Scrapeless xử lý tất cả các vấn đề chống thu thập dữ liệu để đảm bảo rằng các yêu cầu API luôn khả dụng và sẽ không kích hoạt CAPTCHA hoặc lệnh cấm IP.
✅ Tìm kiếm chính xác, lọc dữ liệu tin tức theo yêu cầu
Bạn có thể lọc tin tức theo từ khóa, thời gian phát hành, nguồn tin tức và các điều kiện khác để có được dữ liệu phù hợp nhất và tránh bị nhiễu từ thông tin không cần thiết.
Scrapeless Google News API
🔹 Giá siêu thấp – chỉ $0,1 cho 1.000 truy vấn
🔹 Tốc độ siêu nhanh – dữ liệu được trả về trong vòng 3 giây
🔹 Ổn định và hiệu quả – không bị chặn IP, không cần bảo trì
👉 Hãy thử Scrapeless ngay để dễ dàng thu thập dữ liệu Google News!
Scrapeless Deep SerpAPI: Giải pháp thu thập dữ liệu nhanh hơn và rộng hơn

Nếu bạn cần một giải pháp thu thập dữ liệu toàn diện và hiệu quả hơn, Scrapeless Deep SerpAPI chắc chắn đáng để thử!
✅ Phạm vi dữ liệu rộng hơn – hơn 20 giao diện kịch bản Google Search API
✅ Cập nhật dữ liệu thời gian thực – Dữ liệu trong 24 giờ qua có sẵn bất cứ lúc nào
✅ Chi phí cực thấp – chỉ $0,10 cho 1.000 truy vấn
✅ Phản hồi siêu nhanh – dữ liệu được trả về trong 1-2 giây, vượt xa các API truyền thống
👉 Hãy thử Scrapeless Deep SerpAPI ngay bây giờ và dễ dàng thu thập dữ liệu tìm kiếm Google!
Hỗ trợ nhà phát triển miễn phí:
Tích hợp Scrapeless Deep SerpApi vào công cụ AI, ứng dụng hoặc dự án của bạn (chúng tôi đã hỗ trợ Dify và sẽ hỗ trợ Langchain, Langflow, FlowiseAI và các framework khác trong tương lai).
Chia sẻ kết quả tích hợp của bạn trên mạng xã hội và bạn sẽ nhận được hỗ trợ nhà phát triển miễn phí từ 1 đến 12 tháng, lên đến 500K lượt sử dụng mỗi tháng.
Nắm lấy cơ hội này để cải thiện dự án của bạn và tận hưởng nhiều hỗ trợ phát triển hơn!
Kết luận
Trong bài viết này, chúng ta đã tìm hiểu cách thu thập dữ liệu Google News bằng Python. Cần lưu ý rằng khi thu thập nội dung, bạn phải tuân theo các chính sách và hạn chế sử dụng của Google để đảm bảo tuân thủ pháp luật.
Tài nguyên liên quan
Cách thu thập dữ liệu chuyến bay từ Kayak
Cách sử dụng Selenium với PowerShell
Thu thập dữ liệu Google Jobs để dễ dàng tạo danh sách việc làm bằng Scrapeless
Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.