🥳Tham gia Cộng đồng Scrapelessnhận thử nghiệm miễn phí của bạn để truy cập Bộ công cụ Web Scraping mạnh mẽ của chúng tôi!
Quay lại blog

Cách Scrape Google Hotels bằng Python?

Sophia Martinez
Sophia Martinez

Specialist in Anti-Bot Strategies

06-Mar-2025

Trích xuất thông tin từ các nền tảng như Google Hotels mở ra những cơ hội to lớn: bạn có thể dễ dàng truy cập dữ liệu khách sạn tổng hợp mới nhất (bao gồm giá cả, tình trạng phòng trống, đánh giá và vị trí) để hỗ trợ nghiên cứu thị trường hoặc so sánh giá cả để đưa ra quyết định tốt hơn.

Sự thay đổi theo mùa, nhu cầu và các chương trình khuyến mãi khiến giá khách sạn thường xuyên biến động, vì vậy việc cập nhật thông tin bằng cách thu thập thủ công gần như là không thể. Thay vào đó, bạn có thể tự động hóa (và mở rộng quy mô) quy trình này bằng cách thu thập dữ liệu từ các trang web và nền tảng du lịch.

Hướng dẫn này sẽ chỉ cho bạn cách thực hiện việc này bằng API Scraping của Python. Nó sẽ hướng dẫn bạn từng bước cách thu thập dữ liệu từ Google Hotels.

Tại sao chúng ta thu thập dữ liệu Google Hotels?

Google Hotels

Nếu bạn tìm kiếm các từ khóa liên quan đến khách sạn, Google sẽ tạo ra phần riêng dành cho khách sạn với tên, hình ảnh, địa chỉ, xếp hạng và giá cả của hàng nghìn khách sạn. Đó là bởi vì Google có quyền truy cập vào hàng triệu trang web du lịch và khách sạn và tổng hợp tất cả thông tin đó vào một nơi.

Bạn có thể thu thập dữ liệu gì từ Google Hotels?

🏨 Tên và mô tả khách sạn

💰 Thông tin giá cả (ví dụ: giá mỗi đêm, giảm giá, thuế)

🗺️ Dữ liệu vị trí (ví dụ: địa chỉ, khoảng cách đến các địa danh)

🛜 Tiện nghi và tính năng (ví dụ: Wifi miễn phí, hồ bơi, bữa sáng)

🌟 Đánh giá và xếp hạng (ví dụ: điểm trung bình, số lượng đánh giá)

🔔 Tình trạng phòng trống và tùy chọn đặt phòng

Thách thức khi thu thập dữ liệu Google Hotels

Google Hotels phụ thuộc rất nhiều vào JavaScript để hiển thị nội dung một cách động. Điều này có nghĩa là dữ liệu bạn nhìn thấy trên trang (ví dụ: tên khách sạn, giá cả, đánh giá) không có sẵn trong nguồn HTML thô. Google Hotels hiển thị rất nhiều thông tin theo định dạng có cấu trúc cao nhưng lồng nhau.

Trong khi đó, Google cũng sử dụng các cơ chế chống thu thập dữ liệu tinh vi để ngăn chặn việc truy cập tự động vào các nền tảng của mình.

  • CAPTCHA
  • Chặn IP
  • Hạn chế tốc độ
  • Phân tích hành vi

Bên cạnh đó, Google thường xuyên cập nhật các nền tảng của mình để cải thiện trải nghiệm người dùng và thêm các tính năng mới. Những cập nhật này thường liên quan đến việc thay đổi cấu trúc HTML, lớp CSS hoặc hành vi JavaScript.

Tại sao sử dụng API để thu thập dữ liệu Google Hotels?

  • Không cần phải tạo một trình phân tích cú pháp từ đầu và duy trì nó.
  • Vượt qua việc chặn của Google: có thể tự động giải quyết CAPTCHA hoặc giải quyết việc chặn IP.
  • Không cần phải trả thêm tiền cho proxy và trình giải quyết CAPTCHA.
  • Không cần sử dụng tự động hóa trình duyệt.

Scrapeless Google Hotels API có thể dễ dàng xử lý tất cả các vấn đề trên, với thời gian phản hồi ngắn khoảng 2.33 giây mỗi yêu cầu (1.47 giây là rất nhanh). Người dùng chỉ cần một cuộc gọi API để lấy dữ liệu đã thu thập chính xác, được hiển thị bằng JSON có cấu trúc tốt.

Cách thu thập dữ liệu Google Hotels?

API Google Hotels của chúng tôi cho phép bạn thu thập kết quả khách sạn và cho thuê kỳ nghỉ từ Google Hotels. Bạn có thể truy cập Scrapeless Playground để biết thêm chi tiết.

Scrapeless Playground

Tại sao các doanh nghiệp lại chọn Scrapeless?

🔴 Tiết kiệm chi phí: Google Shopping API chỉ cần $0.80. Sau khi đăng ký, bạn có thể được giảm giá 10%!

🔴 Dữ liệu chính xác: Các nhà phát triển của chúng tôi liên tục phân tích các thuật toán và hạn chế thu thập dữ liệu của Google để đảm bảo API được cập nhật và tối ưu hóa.

🔴 Ổn định và tỷ lệ thành công cao: Scrapeless đảm bảo tỷ lệ thành công và độ tin cậy 99%. Sự ổn định và độ chính xác của việc thu thập dữ liệu Google Trends đã đạt gần 100%! Hiện tại, thời gian phản hồi trung bình khoảng 1-2 giây, nhanh hơn đáng kể so với hầu hết các nhà cung cấp API. Hơn nữa, dữ liệu được trả về ở định dạng JSON chuẩn, sẵn sàng để sử dụng ngay lập tức.

Scrapeless đã nhận được sự tin tưởng của hơn 2.000 người dùng doanh nghiệp!
Tham gia Discord ngay bây giờ để nhận dùng thử miễn phí! Chỉ có 1.000 suất có sẵn trong thời gian giới hạn—hãy hành động nhanh chóng!

Hướng dẫn Google Hotels API

Bước 1. Lấy Khóa API của bạn

Để bắt đầu, bạn cần lấy Khóa API của mình từ Bảng điều khiển Scrapeless:

  • Đăng nhập vào Bảng điều khiển Scrapeless.
  • Điều hướng đến Quản lý Khóa API.
  • Nhấp vào Tạo để tạo Khóa API duy nhất của bạn.
  • Sau khi tạo, chỉ cần nhấp vào Khóa API để sao chép nó.
Obtain Your API Key

Bước 2: Sử dụng Khóa API của bạn trong Code

Bây giờ bạn có thể sử dụng Khóa API của mình để tích hợp Scrapeless vào dự án của mình. Thực hiện theo các bước này để kiểm tra và triển khai API.

  1. Truy cập Tài liệu API.
  2. Nhấp vào "Thử nghiệm" cho điểm cuối mong muốn.
  3. Cấu hình các tham số bạn cần trong nội dung code.

Đây là yêu cầu nội dung của tôi:

Python Copy
{
  "actor": "scraper.google.hotels",
  "input": {
    "engine": "google_hotels",
    "q": "Bali Resorts",
    "check_in_date": "2025-03-18",
    "check_out_date": "2025-03-28"
  }
}
Google hotel
  • Thay thế từ khóa q bằng từ khóa bạn muốn truy vấn.
  • Tham số engine là bắt buộc và giá trị của nó phải là google_hotels. Tuy nhiên, bạn có thể thêm các tham số cụ thể hơn, chẳng hạn như google_scholar_author.
  • Các tham số phổ biến:
Tham số Bắt buộc Mô tả
engine TRUE Đặt thành google_hotels để sử dụng API này.
q TRUE Truy vấn tìm kiếm (ví dụ: Bali Resorts).
hl FALSE Cài đặt ngôn ngữ (mặc định: en).
currency FALSE Tiền tệ của giá được trả về.
check_in_date TRUE Tham số xác định ngày nhận phòng. Định dạng là YYYY-MM-DD. ví dụ 2025-03-05.
check_out_date TRUE Tham số xác định ngày trả phòng. Định dạng là YYYY-MM-DD. ví dụ 2025-03-06.
  1. Nhập Khóa API của bạn vào trường "Auth".
  2. Nhấp vào "Gửi" để nhận phản hồi thu thập dữ liệu.
input your API key

Bạn cũng có thể tích hợp trực tiếp code tham khảo của chúng tôi vào chương trình của mình. Chỉ cần thay thế your_token bằng token bạn đã đăng ký:

Python Copy
import json
import requests


class Payload:
    def __init__(self, actor, input_data):
        self.actor = actor
        self.input = input_data


def send_request():
    host = "api.scrapeless.com"
    url = f"https://{host}/api/v1/scraper/request"
    token = your_token ## thay thế bằng Token API của bạn

    headers = {
        "x-api-token": token
    }

    input_data = {
        "engine": "google_hotels",
        "q": "Bali Resorts",
        "check_in_date": "2025-03-18",
        "check_out_date": "2025-03-28"
    }

    payload = Payload("scraper.google.hotels", input_data)

    json_payload = json.dumps(payload.__dict__)

    response = requests.post(url, headers=headers, data=json_payload)

    if response.status_code != 200:
        print("Error:", response.status_code, response.text)
        return

    print("body", response.text)


if __name__ == "__main__":
    send_request()

Ở đây bạn có thể thấy kết quả thu thập dữ liệu JSON tham khảo:

JSON Copy
{
    "brands": [
        {
            "id": 37,
            "name": "Hyatt"
        },
        {
            "id": 180,
            "name": "Sol by Melia"
        },
        {
            "id": 402,
            "name": "Spot On"
        },
        {
            "id": 91,
            "name": "Mercure"
        },
        {
            "id": 174,
            "name": "Melia Hotels International"
        },
        {
            "id": 87,
            "name": "Hotel Indigo"
        },
        {
            "id": 135,
            "name": "Four Points by Sheraton"
        },
        {
            "id": 390,
            "name": "Capital O"
        },
        {
            "id": 154,
            "name": "Tribute Portfolio"
        },
        {
            "id": 325,
            "name": "Kempinski"
        },
        {
            "id": 90,
            "name": "Pullman Hotels and Resorts"
        },
        {
            "id": 137,
            "name": "W Hotels"
        },
        {
            "id": 53,
            "name": "Wyndham Hotels u0026 Resorts"
        },
        {
            "id": 67,
            "name": "Banyan Tree"
        },
        {
            "id": 134,
            "name": "Element"
        },
        {
            "id": 21,
            "name": "Ibis"
        },
        {
            "id": 2,
            "name": "InterContinental Hotels u0026 Resorts"
        },
        {
            "id": 117,
            "name": "Grand Hyatt"
        },

Tài nguyên khác

Scrapeless Deep SerpApi đã sẵn sàng!

Deep SerpApi

Deep SerpAPi là một công cụ tìm kiếm chuyên dụng được thiết kế cho các mô hình ngôn ngữ lớn (LLM) và các tác nhân AI. Nó cung cấp thông tin chính xác, không thiên vị và cập nhật tức thời, cho phép các ứng dụng AI truy xuất và xử lý dữ liệu hiệu quả:

✅ Nó tích hợp sẵn 20+ giao diện kịch bản Google Search API và được kết nối với dữ liệu của các công cụ tìm kiếm phổ biến.

✅ Nó bao gồm 20+ loại dữ liệu, chẳng hạn như kết quả tìm kiếm, tin tức, video và hình ảnh.

✅ Nó hỗ trợ cập nhật dữ liệu lịch sử trong vòng 24 giờ qua.

Deep SerpApi sẽ xem xét đầy đủ nhu cầu của các nhà phát triển AI! Chúng tôi sẽ đơn giản hóa quy trình tích hợp thông tin web động vào các giải pháp do AI điều khiển và cuối cùng là hiện thực hóa một API ALL-in-One cho phép tìm kiếm và trích xuất dữ liệu web bằng một cú nhấp chuột. Hơn nữa, chúng tôi sẽ duy trì mức giá thấp nhất trong lĩnh vực này trong một thời gian dài: $0.1-$0.3/1K truy vấn.

Đừng bỏ lỡ Chương trình Tài trợ Nhà phát triển của chúng tôi!
Tham gia cộng đồng của chúng tôi và nhận $50/tháng tín dụng miễn phí ngay bây giờ.

Trường hợp sử dụng dữ liệu Google Hotels đã thu thập

Google Hotels là một kho tàng dữ liệu dành cho các nhà phát triển công nghệ du lịch, nhà tiếp thị và nhà phân tích. Dưới đây là lý do tại sao việc thu thập dữ liệu nền tảng này đáng để bạn bỏ thời gian:

  1. Phân tích giá cả cạnh tranh: Theo dõi sự biến động giá cả theo thời gian thực trên các khách sạn để luôn dẫn đầu đối thủ cạnh tranh.
  2. Nghiên cứu thị trường: Xác định các điểm đến đang thịnh hành, tiện nghi phổ biến và sở thích của khách hàng.
  3. Đề xuất cá nhân hóa: Xây dựng các ứng dụng cung cấp đề xuất khách sạn phù hợp dựa trên sở thích của người dùng.
  4. SEO và Tạo nội dung: Sử dụng dữ liệu đã thu thập để tạo blog hoặc hướng dẫn du lịch dựa trên dữ liệu.
  5. Chiến lược định giá động: Các doanh nghiệp có thể khám phá xu hướng giá cả, điều chỉnh giá cả và nhận ra các cơ hội định giá cạnh tranh dựa trên nhu cầu, tình trạng phòng trống và giá cả của đối thủ. Điều này tối ưu hóa doanh thu và tỷ lệ lấp đầy.
  6. Cảnh báo tùy chỉnh: Giám sát sự giảm giá để cảnh báo khách hàng hoặc để sử dụng cá nhân.
  7. Dịch vụ tổng hợp du lịch: Cung cấp cho người dùng cái nhìn tổng quan về giá cả và tùy chọn khách sạn từ nhiều nguồn khác nhau.
  8. Ngân sách và lập kế hoạch: Du khách có thể ước tính chi phí chỗ ở và điều chỉnh kế hoạch cho phù hợp.

Kết luận

Chúc mừng, bạn đã học được cách dễ nhất để xây dựng một công cụ thu thập dữ liệu Google Hotel! Chỉ cần các cuộc gọi API đơn giản là cần thiết để hoàn thành việc thu thập và trích xuất dữ liệu phức tạp. Việc thu thập dữ liệu Google Hotels có giá trị rất lớn đối với các chiến lược định giá, xu hướng giá cả, nghiên cứu thị trường, phân tích tâm lý, phân tích dự báo, v.v.

Scrapeless đang dần bao phủ thông tin Google Hotels chi tiết hơn và nhiều kịch bản thu thập dữ liệu Google toàn diện hơn. Chúng tôi cam kết cung cấp cho khách hàng một API đơn giản và nhanh chóng để họ có thể tập trung nguồn lực vào cốt lõi của doanh nghiệp mình.

Bạn luôn có thể nhận được dùng thử miễn phí $2!

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến ​​cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

Danh mục