Cách thu thập thông tin Tổng quan về Google AI: Hướng dẫn toàn diện cho SEO và Giám sát Hiển thị Thương hiệu AI

Emily Chen

Advanced Data Extraction Specialist

18-May-2026

Những điểm chính:

Một tác nhân, toàn bộ bề mặt AI Overview. scraper.overview trả về nội dung AI Overview (markdown + văn bản thuần), bảng nguồn trích dẫn, các nguồn web tìm kiếm liên quan, vị trí tài trợ và cờ shopping - tất cả dưới dạng JSON cấu trúc từ một HTTP POST duy nhất.
Egress cư trú gắn theo quốc gia. Trường input.country định tuyến yêu cầu thông qua một proxy cư trú phù hợp với địa lý để AI Overview mà Google tạo ra là cái mà một người dùng thực sự ở quốc gia đó sẽ thấy. Đã được xác thực end-to-end với US và GB.
Một phong bì tiêu chuẩn. Mỗi phản hồi thành công là { status, task_id, task_result }. task_result.content là markdown với các tham chiếu trích dẫn [N]; task_result.rawtext là cùng một nội dung mà không có trích dẫn; task_result.source và task_result.web_source là hai bảng liên kết xếp hạng.
Kết hợp với scraper.google.search và scraper.aimode. AI Overview là một bề mặt AI của Google - tab AI Mode và SERP hữu cơ cổ điển là anh chị em. Cùng tài khoản Scrapeless, cùng tiêu đề xác thực.
Miễn phí để bắt đầu. Các tài khoản Scrapeless mới bao gồm tín dụng API Scraper miễn phí - đăng ký tại Trang web Scrapeless.

Giới thiệu: truy cập có cấu trúc vào AI Overview của Google

AI Overview (AIO) của Google đứng ở đầu SERP cho một phần ngày càng tăng trong các truy vấn thông tin, so sánh và mua sắm. Đối với các nhóm SEO, nó đã thay thế Featured Snippet như bề mặt câu trả lời chịu lực; đối với giám sát thương hiệu, đây là điều đầu tiên mà một khách hàng tiềm năng đọc về một sản phẩm; đối với các hệ thống định hình AI, đây là một tập hợp được biên soạn của các trích dẫn mà Google đã xác thực về độ liên quan.

Việc thu thập AIO trực tiếp từ SERP đã được xử lý là một mục tiêu di chuyển. Khối này lazy-load phía sau một placeholder "đang tạo", đánh dấu thay đổi giữa các biến thể A/B, và bảng trích dẫn được bơm độc lập với nội dung. Một pipeline thu thập DOM có thể hoạt động nhưng nó mang theo thuế bảo trì selector của bất kỳ mục tiêu front-end nào - và vẫn cần egress cư trú, rendering JavaScript và xử lý CAPTCHA bên dưới.

API AI Overview của Scrapeless Scraper (actor: "scraper.overview") giảm tất cả điều đó xuống chỉ còn một HTTP POST. Người gọi gửi một yêu cầu và một quốc gia; API trả về một phong bì JSON có cấu trúc với nội dung AIO ở hai định dạng (markdown có trích dẫn, văn bản thuần không có), các nguồn trích dẫn, các nguồn web tìm kiếm liên quan, các vị trí tài trợ trên AIO, và các cờ shopping/liên kết mua hàng. Xác thực, định tuyến proxy, rendering JavaScript, polling lazy-load và bảo trì selector đều là mối quan tâm phía máy chủ.

Hướng dẫn này đi qua việc tích hợp hoàn chỉnh: lý do mà các nhóm sử dụng API, hình dạng yêu cầu và phản hồi, tham chiếu tham số và trường, các client Python và Node.js có thể chạy, ma trận lỗi quan sát trong xác thực và một tour ngắn về các tác nhân đồng hành (scraper.google.search, scraper.aimode) để hoàn thiện một pipeline Google-AI sản xuất.

Bạn có thể làm gì với nó

Giám sát thứ hạng và sự hiện diện của AI Overview. Theo dõi những từ khóa mục tiêu của bạn thực sự hiển thị AIO, và tần suất - tỷ lệ kích hoạt AIO tự nó là một KPI SEO có tín hiệu cao vào năm 2026.
Theo dõi trích dẫn GEO. Lấy danh sách các miền đã được trích dẫn cho mỗi AIO và tổng hợp phần trích dẫn theo thương hiệu, theo nhóm chủ đề, theo địa lý. Đây là tương đương GEO của phần tiếng nói hữu cơ.
Giám sát thương hiệu trên các câu trả lời AI. Theo dõi những đánh giá, so sánh và bài viết biên tập của bên thứ ba nào mà AIO của Google hiện lên khi khách hàng tiềm năng tìm kiếm thương hiệu của bạn hoặc của đối thủ cạnh tranh.
Kiểm toán khả năng hiển thị của đối thủ. So sánh danh sách nguồn trích dẫn cho các truy vấn thương hiệu của đối thủ cạnh tranh với của bạn - khoảng cách là lộ trình nội dung GEO của bạn.
Dữ liệu huấn luyện cho đánh giá LLM và RAG. Mỗi AIO là một bộ ba truy vấn được biên soạn → câu trả lời có căn cứ → tập hợp trích dẫn. Được ghi lại ở một dấu thời gian cố định và địa lý proxy, nó là sự thật có thể tái sản xuất cho đánh giá RAG và các chuẩn chất lượng câu trả lời.
Thông tin về vị trí tài trợ. Phản hồi giống nhau mang theo quảng cáo đã chạy trên AIO cho cùng một truy vấn (nhà quảng cáo, tiêu đề, URL hiển thị, mã theo dõi). Kết hợp nó với nội dung AIO để nghiên cứu hành vi của nhà quảng cáo trên SERP tăng cường bởi AI.
Hiện lên ý định mua sắm. task_result.is_overview_shopping, is_shopping, và purchase_link là các cờ ở cấp AIO đánh dấu các truy vấn mà Google đã phân loại là thương mại. Hữu ích cho các pipeline intel bán lẻ lọc cho các thuật ngữ có ý định mua.
Capture đa địa điểm. Đặt input.country cho mỗi yêu cầu để đọc AIO mà người dùng thực sự thấy ở US, GB, DE, FR, JP, và các địa điểm proxy cư trú khác được hỗ trợ.

Tại Scrapeless, chúng tôi chỉ truy cập dữ liệu công khai có sẵn trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật của trang web hiện hành. Nội dung trong bài viết này chỉ dành cho mục đích minh họa.

Tại sao API Scraper AI Overview không cần thu thập dữ liệu

API biến khối AI Overview của Google — một bề mặt tải lười, xoay vòng, nhạy cảm với địa lý — thành một cuộc gọi HTTP JSON có cấu trúc duy nhất.

Không cần thu thập dữ liệu DOM, không cần Playwright, không cần bảo trì bộ chọn. Gửi {prompt, country}, nhận {ads, content, rawtext, source, web_source, ...}. Nội dung được cung cấp dưới dạng markdown với các tham chiếu trích dẫn [N] nội tuyến và dưới dạng văn bản thuần không có trích dẫn song song.
Thực hiện thoát cư trú gắn với quốc gia. Trường input.country điều hướng yêu cầu thông qua một proxy cư trú phù hợp địa lý. AI Overview nhận được là cái mà một người dùng thật ở quốc gia đó sẽ thấy — không phải là bản giảm tải chung cho Mỹ.
Tải lười được xử lý ở phía máy chủ. AIOs được hiển thị phía sau một dấu hiệu "đang tạo" mà tác nhân gọi đến từ phía máy chủ; việc gọi này chiếm ưu thế trong độ trễ tổng thể ~12–18 giây quan sát được trong xác minh. Người gọi chỉ nhận được nội dung đã ổn định và không thực hiện vòng lặp chờ.
Các bảng trích dẫn đã được phân tích trước. task_result.source là bảng các nguồn đã trích dẫn của AI Overview (các liên kết mà Google quy cho câu trả lời); task_result.web_source là bảng tìm kiếm liên quan xuất hiện dưới AIO. Cả hai đều đến dưới dạng mảng {title, url, snippet, website_name, favicon, thumbnail}.
Tín hiệu mua sắm là các trường hạng nhất. is_overview_shopping, is_shopping, và purchase_link đánh dấu các AIO có ý định thương mại mà không cần người gọi phải phân tích nội dung.
Cùng xác thực không cần thu thập dữ liệu như phần còn lại của dòng sản phẩm. API Scraper AI Overview sử dụng cùng tiêu đề x-api-token như scraper.google.search, scraper.amazon, và API Thu thập Dữ liệu Toàn cầu. Một tài khoản, nhiều bề mặt.

Nhận khóa API của bạn trong gói miễn phí tại Webiste Scrapeless. Dòng API Scraper nằm cạnh Trình duyệt Thu thập Dữ liệu, API Thu thập Dữ liệu Toàn cầu, và Đại lý AI trong danh mục giá cả.

Các yêu cầu tiên quyết

Một tài khoản Scrapeless và khóa API — đăng ký tại Scrapeless.
Một terminal với curl (để kiểm tra khói) hoặc Python 3.10+ / Node.js 18+ cho các khách hàng tích hợp bên dưới.
Kiến thức cơ bản về HTTP và JSON.

Không cần trình duyệt, không cần Playwright, không cần kế hoạch proxy để mua riêng. Tác nhân xử lý việc thoát cư trú, kết xuất JavaScript, chống phát hiện, và gọi tải lười ở phía máy chủ.

Cách thức hoạt động của API Scraper AI Overview

Sự tích hợp là một lệnh HTTP POST. Lấy một token API từ bảng điều khiển Scrapeless và lưu nó dưới dạng biến môi trường:

bash Copy

export SCRAPELESS_API_TOKEN=your_token_here

Điểm cuối là POST https://api.scrapeless.com/api/v2/scraper/execute với tiêu đề x-api-token: <YOUR_TOKEN> và một nội dung JSON chỉ tên tác nhân và đầu vào của nó:

bash Copy

curl --location 'https://api.scrapeless.com/api/v2/scraper/execute' \
  --header 'Content-Type: application/json' \
  --header "x-api-token: ${SCRAPELESS_API_TOKEN}" \
  --data '{
    "actor": "scraper.overview",
    "input": {
        "prompt":  "giày chạy bộ tốt nhất",
        "country": "US"
    }
}'

Một cuộc gọi thành công trả về HTTP 200 trong khoảng 15 giây từ đầu đến cuối và nội dung là phong bì tiêu chuẩn dưới đây.

Tham số yêu cầu

Tham số	Bắt buộc	Loại	Mô tả
`actor`	có	chuỗi	Phải là `"scraper.overview"`
`input.prompt`	có	chuỗi	Truy vấn Google mà bạn muốn có AI Overview. Ngôn ngữ tự nhiên không có hình thức cố định. Một giá trị trống sẽ trả về HTTP 400 với `Field validation for 'Prompt' failed on the 'required' tag`.
`input.country`	có	chuỗi	Mã quốc gia ISO 3166-1 alpha-2 — `US`, `GB`, `DE`, `FR`, `JP`, v.v. Quy định proxy cư trú xuất và do đó là địa phương của AIO mà Google trả về.

Phong bì phản hồi

Một phản hồi thành công là một đối tượng JSON với ba khóa cấp cao:

json Copy

{
  "status":    "success",
  "task_id":   "ca132d3f-dc04-464e-b652-53231a8aeb8f",
  "task_result": {
    "ads":                  [ /* vị trí tài trợ phía trên AIO */ ],
    "content":              "**GraphQL**là một ngôn ngữ truy vấn mã nguồn mở ... ([GraphQL][1]) ([Blog Postman][2]) ...\n\n[1]: https://graphql.org/ \"GraphQL — ...\"",
    "rawtext":              "GraphQL là một ngôn ngữ truy vấn mã nguồn mở ...",
    "is_overview_shopping": true,
    "is_shopping":          true,
    "purchase_link":        true,
    "metadata":             { "rawUrl": "https://www.google.com/search?ApiType=overview&IsShopping=true&oq=...&q=..." },
    "products":             null,
"nguồn":               [ /* Các nguồn tham khảo của AI Overview */ ],
    "web_source":           [ /* các nguồn web tìm kiếm liên quan bên dưới AIO */ ]
  }
}

python Copy

def fetch_aio(prompt: str, country: str = "US", retries: int = 3, backoff: float = 3.0):
    body = {"actor": "scraper.overview", "input": {"prompt": prompt, "country": country}}
    last = None
    for attempt in range(retries):
        resp = requests.post(URL, headers=HEADERS, json=body, timeout=60)
        last = resp
        if resp.status_code == 200:
            payload = resp.json()
            if payload.get("status") == "success":
                return payload["task_result"]
        if resp.status_code == 400 and "execution failed" in resp.text:
            time.sleep(backoff * (attempt + 1))
            continue
        resp.raise_for_status()
    raise RuntimeError(f"AIO scrape đã hết số lần thử cho {prompt!r}: {last.text}")

keywords = [
    "giày chạy tốt nhất",
    "tai nghe không dây tốt nhất cho việc chạy",
    "cách chọn giày chạy",
]
for kw in keywords:
    result = fetch_aio(kw, country="US")
    print(f"\n=== {kw} ===")
    print(f"  nguồn được trích dẫn: {len(result['source'])}  "
          f"nguồn web: {len(result['web_source'])}  "
          f"quảng cáo: {len(result['ads'])}")

Đây là mẫu chịu lực cho việc theo dõi lô từ khóa. Giữ cho độ cạnh tranh ở mức vừa phải — ba đến năm công nhân song song cho mỗi token là một điểm khởi đầu an toàn — và giảm bớt tín hiệu execution failed thay vì coi đó là một thất bại nghiêm trọng.

Lấy khóa API của bạn trên gói miễn phí: Trang web Scrapeless

Tích hợp API trong Node.js (18+)

Cuộc gọi tương tự trong Node, sử dụng fetch tích hợp sẵn:

js Copy

const URL = "https://api.scrapeless.com/api/v2/scraper/execute";

async function fetchAIO(prompt, country = "US") {
  const resp = await fetch(URL, {
    method: "POST",
    headers: {
      "x-api-token":  process.env.SCRAPELESS_API_TOKEN,
      "Content-Type": "application/json",
    },
    body: JSON.stringify({
      actor: "scraper.overview",
      input: { prompt, country },
    }),
  });

  if (!resp.ok) {
    const text = await resp.text();
    throw new Error(`HTTP ${resp.status}: ${text}`);
  }
  const payload = await resp.json();
  if (payload.status !== "success") {
    throw new Error(`Lấy dữ liệu AIO thất bại: ${JSON.stringify(payload)}`);
  }
  return payload.task_result;
}

const result = await fetchAIO("giày chạy tốt nhất", "US");

console.log(`cờ mua sắm: is_shopping=${result.is_shopping} ` +
            `is_overview_shopping=${result.is_overview_shopping}`);

console.log("\n=== Tổng quan AI (rawtext) ===");
console.log(result.rawtext.slice(0, 1200), "...\n");

console.log("=== Nguồn được trích dẫn hàng đầu ===");
for (const s of result.source.slice(0, 5)) {
  console.log(`  - ${s.website_name.padEnd(20)} ${s.url}`);
}

console.log(`\nquảng cáo trên AIO: ${result.ads.length}`);

Mẫu thử lại phản ánh phiên bản Python: chỉ thử lại trên HTTP 400 + "execution failed"; coi 401, 4xx với code: 14002 (diễn viên không hợp lệ), và lỗi xác thực trên Prompt là những thất bại nghiêm trọng mà không có đợt thử lại nào có thể khắc phục.

Các diễn viên đồng hành cho việc thu thập dữ liệu Google-AI từ đầu đến cuối

API tổng quan Scraper AI bao phủ một bề mặt AI của Google. Các đường ống sản xuất theo dõi khả năng hiển thị thương hiệu, xây dựng tập dữ liệu GEO, hoặc đào tạo mô hình chất lượng câu trả lời thường muốn thêm hai bề mặt nữa.

`scraper.google.search` — kết quả tìm kiếm hữu cơ cổ điển

Đối với mười liên kết xanh bên dưới AIO, các cặp Hỏi Người Khác Cũng, Bảng Kiến Thức, Mảnh Nổi Bật, và khối Tìm Kiếm Liên Quan, scraper.google.search là đối tác có cấu trúc. Các miền của nguồn được trích dẫn trong mảng source của scraper.overview hữu ích khi cô lập, nhưng sẽ hữu ích hơn nhiều khi được kết nối với top-10 hữu cơ cho cùng một truy vấn — sự kết nối đó cho bạn biết liệu một miền được trích dẫn có xếp hạng hữu cơ hay không, và ở vị trí nào.

`scraper.aimode` — tab Chế độ AI

Chế độ AI của Google là một trải nghiệm đối thoại toàn trang riêng biệt xuất phát từ SERP. Nó viết lại câu trả lời theo định dạng giống trò chuyện hơn, lấy các prompt theo sau, và sử dụng bố cục bảng trích dẫn khác. scraper.aimode là diễn viên dành riêng cho nó. Để có cái nhìn đầy đủ về cách Tìm kiếm AI của Google đang trình bày một chủ đề, hãy thu thập cả ba scraper.overview, scraper.google.search, và scraper.aimode cho cùng một truy vấn, cùng một quốc gia, cùng một thời điểm.

API thu thập dữ liệu toàn cầu cho phần còn lại của bề mặt trả lời LLM

Tổng quan AI của Google là một bề mặt chia sẻ trích dẫn. Đối với một chương trình GEO ở cấp độ thương hiệu, bạn cũng thường cần theo dõi kết quả tìm kiếm ChatGPT, câu trả lời Perplexity, và các trải nghiệm tìm kiếm khác do LLM cung cấp. API thu thập dữ liệu toàn cầu là con đường dành riêng cho những thứ này — cùng x-api-token, tên diễn viên khác nhau, cùng hình dạng JSON-envelope.

`scraper.amazon` (Rufus) cho phía thương mại

Khi thương hiệu đang được theo dõi là một sản phẩm vật lý, Amazon Rufus là đầu cuối khác của pipeline trả lời AI. Diễn viên Amazon Rufus trả về câu trả lời của trợ lý mua sắm dựa trên ngữ cảnh cho bất kỳ truy vấn sản phẩm bằng ngôn ngữ tự nhiên nào. Kết hợp với Google AIO, nó cho bạn biết hai bề mặt trả lời AI lớn nhất định vị sản phẩm của bạn hoặc của các đối thủ cạnh tranh của bạn như thế nào.

Tất cả bốn diễn viên chia sẻ một tài khoản Scrapeless, một tiêu đề x-api-token, và một hình dạng bao bì. Kết nối một lớp khách đơn lẻ một lần và sử dụng lại nó cho toàn bộ gia đình.

Cách tránh các vấn đề phổ biến

Các phản hồi lỗi mà bạn có thể thấy

API trả về JSON có cấu trúc cho mọi trường hợp lỗi. Trường code, khi có, là mã lỗi Scrapeless; message là giải thích dễ đọc cho con người.

Tình huống	HTTP	Thân phản hồi
Mã thông báo API không hợp lệ	`401`	`{"code":14404,"message":"mã truy cập không hợp lệ"}`
Tên diễn viên sai	`400`	`{"code":14002,"message":"diễn viên không hợp lệ: <name>","status":"thất bại"}`
Thiếu hoặc trống `input.prompt`	`400`	`{"message":"Khóa: 'overviewParam.Prompt' Lỗi: Xác thực trường cho 'Prompt' thất bại trên thẻ 'required'","status":"thất bại"}`
Mã quốc gia không hợp lệ	`400`	`{"message":"thực thi không thành công","status":"thất bại","task_id":"..."}`
Truy vấn không hiển thị AIO / thất bại tạm thời phía trên	`400`	`{"message":"thực thi không thành công","status":"thất bại","task_id":"..."}`
Thành công	`200`	`{"status":"thành công","task_id":"...","task_result":{...}}`
đang chờ	`201`	`{"status":"đang chờ","task_id":"..."}` Nhiệm vụ đang được thực hiện. Vui lòng thử lại sau.
đang chạy	`202`	`{"status": "đang chạy", "task_id":"..."}` Nhiệm vụ đã được tạo. Bạn có thể lấy kết quả bằng cách sử dụng ID nhiệm vụ sau.

Mã 144xx là xác thực và xác thực diễn viên; payload Xác thực trường là hình dạng yêu cầu; thực thi không thành công bao gồm cả trường hợp không có AIO và tạm thời phía trên. Luôn lưu trữ task_id từ bất kỳ phản hồi thất bại nào — đó là điều mà bộ phận hỗ trợ Scrapeless cần để liên kết một lần thực hiện xấu.

Cặp vấn đề - giải pháp

Vấn đề: Một truy vấn trả về thực thi không thành công một lần nhưng hoạt động khi thử lại.
Giải pháp: đây là tín hiệu tạm thời phía trên. Truy vấn giống nhau mà hiện tại thất bại thường thành công sau năm đến ba mươi giây. Thử lại với khoảng đệm 3–6 giây và một ngân sách cố gắng nhỏ (3 lần thử). Đối xử với sự thất bại liên tục trong ngân sách đó như là "không có AIO cho truy vấn này ở địa lý này" hơn là một lỗi tích hợp.

Vấn đề: Một truy vấn liên tục trả về thực thi không thành công bất kể thử lại.
Giải pháp: không phải mỗi truy vấn Google đều tạo ra một AI Overview. Các truy vấn một từ, truy vấn định hướng ("facebook"), và các truy vấn mà Google không chọn để định hướng thường không tạo ra AIO. Kiểm tra bằng cách mở https://www.google.com/search?q=<query> từ cùng một địa lý (VPN dân cư hoặc một thiết bị thật); nếu không có AIO nào được hiển thị cho người dùng, diễn viên cũng sẽ không tạo ra. Đặt lại truy vấn để có nhiều thông tin hơn ("X hoạt động như thế nào", "X tốt nhất cho Y", "X so với Y").

Vấn đề: task_result.products là null mặc dù is_shopping là true.
Giải pháp: task_result.products được điền cho một số AIO mua sắm và null cho những cái khác — ngay cả khi is_shopping là đúng. Khi có mặt, mỗi mục mang theo name, price, orig_price, discount, rating, review_count, seller, img, url, delivery, stores, và section_title (một số trường chuỗi có thể trống khi Google không hiển thị thuộc tính đó). Khi trường là null, đọc các ứng viên sản phẩm từ task_result.source (bảng nguồn trích dẫn — thường là các trang bán lẻ) và phân tích nội dung markdown trong task_result.content để tìm các đề cập sản phẩm nội tuyến. Luôn lập trình một cách thận trọng chống lại null: result.get("products") or [].

Vấn đề: task_result.source và task_result.web_source trông giống nhau — cái nào là cái nào?
Giải pháp: source là bảng trích dẫn của AI Overview (các liên kết mà AIO được ghi nhận). web_source là bảng tìm kiếm liên quan được hiển thị bên dưới AIO. Đối với việc theo dõi trích dẫn GEO, hãy đếm từ source; đối với cơ hội nội dung liên quan, sử dụng web_source.

Vấn đề: Nội dung AIO trong content có tham chiếu trích dẫn markdown ([1], [2]) nhưng tôi cần đoạn văn thô.
Giải pháp: sử dụng task_result.rawtext — đó là phiên bản đã được loại bỏ trích dẫn, phù hợp cho các embeddings, nhắc nhở LLM phía dưới và thu thập chỉ số tìm kiếm. Sử dụng content khi bạn cần hiển thị câu trả lời với sự ghi nhận.

Vấn đề: Cùng một truy vấn trả về các thân AIO khác nhau trong các cuộc gọi khác nhau.
Giải pháp: AI Overviews là không xác định — Google tái tạo chúng theo phiên và chúng có thể thay đổi qua giờ và ngày. Đối với các trường hợp theo dõi, hãy gắn thời gian và quốc gia trên mỗi lần lấy và giữ phản hồi thô; hãy coi thân phản hồi như một mẫu, không phải là một hằng số. Tập hợp nguồn trích dẫn thường ổn định hơn so với thân văn bản.
Vấn đề: Giới hạn tần suất và mức độ đồng thời không có trong tài liệu công khai.
Giải pháp: bắt đầu với các cuộc gọi tuần tự. Tăng dần mức độ đồng thời trong khi theo dõi mã HTTP 429 hoặc sự gia tăng trong execution failed. Đối với các quy trình có khối lượng lớn liên tục, hãy liên hệ với bộ phận hỗ trợ của Scrapeless để được hỗ trợ một làn đường riêng.

Kết luận: AIO có cấu trúc như một phụ thuộc một dòng

Tổng quan AI của Google đã trở thành một bề mặt chịu tải cho SEO, GEO, giám sát thương hiệu và các quy trình dựa trên AI. Việc thu thập thông tin qua tự động hóa DOM hoạt động nhưng mang theo toàn bộ gánh nặng bảo trì bộ chọn, thoát cư trú, tải chậm và xử lý CAPTCHA phía dưới. API Tổng quan AI của Scrapeless giảm toàn bộ tích hợp xuống chỉ còn một HTTP POST với ba trường bắt buộc (actor, input.prompt, input.country) và trả về một phong bì JSON có cấu trúc nơi mà nội dung AIO, các nguồn được trích dẫn, panel liên quan, quảng cáo ở trên AIO, và cờ mua sắm đều là các trường hàng đầu.

Kết hợp với scraper.google.search cho SERP hữu cơ và scraper.aimode cho tab Chế độ AI của Google, ba tác nhân cùng nhau bao phủ toàn bộ bề mặt tìm kiếm được tăng cường bởi AI của Google từ một tài khoản Scrapeless duy nhất. API Thu thập Dữ liệu Toàn cầu Universal Scraping API mở rộng cùng mẫu này đến ChatGPT, Perplexity, và các bề mặt trả lời khác — những khối xây dựng của một chương trình GEO sản xuất.

Đăng ký tại app.scrapeless.com để nhận tín dụng miễn phí API Scraper, và đọc tài liệu API đầy đủ tại apidocs.scrapeless.com.

Sẵn sàng xây dựng quy trình tìm kiếm dựa trên AI của bạn?

Tham gia cộng đồng của chúng tôi để nhận một gói miễn phí và kết nối với các nhà phát triển đang xây dựng các quy trình GEO, AI thương hiệu và giám sát tìm kiếm trên cơ sở Scrapeless:
Discord
Telegram

Đăng ký tại Webiste Scrapeless để nhận tín dụng miễn phí API Scraper và điều chỉnh các mẫu ở trên cho các từ khóa, quốc gia và thuật ngữ thương hiệu mà quy trình của bạn cần.

Câu hỏi thường gặp

Q1: Việc thu thập thông tin Tổng quan AI của Google có hợp pháp không?
Nội dung Tổng quan AI công khai xuất hiện trên google.com là một phần của kết quả tìm kiếm công khai và thường được coi là công bằng để truy cập cho nghiên cứu, giám sát SEO, và phân tích cạnh tranh. Các khu vực pháp lý và trường hợp sử dụng cụ thể khác nhau — việc sử dụng thương mại, phân phối lại nội dung AIO và quyền truy cập tự động quy mô lớn có thể mang theo các cân nhắc bổ sung theo Điều khoản Dịch vụ của Google và luật bảo vệ dữ liệu địa phương. Xem xét Điều khoản Dịch vụ của Google và các quy định địa phương của bạn, và tham khảo ý kiến luật sư trước khi công bố hoặc phân phối lại nội dung AIO thu thập được.

Q2: Có phải mỗi truy vấn của Google đều tạo ra một Tổng quan AI không?
Không. Google chọn thời điểm nào để xuất hiện một AIO và tỷ lệ này thay đổi theo loại truy vấn, địa lý, ngôn ngữ, và các thử nghiệm sản phẩm hiện tại. Các truy vấn thông tin, so sánh, "X hoạt động như thế nào", "X tốt nhất", và các truy vấn ý định mua sắm là có khả năng nhất để kích hoạt một cái vào năm 2026. Các truy vấn điều hướng ("facebook", "đăng nhập amazon") và các truy vấn số từ đơn nghĩa thường không kích hoạt điều này. Tác nhân trả về execution failed cho các truy vấn mà Google không gắn kết ở địa lý đó.

Q3: Các quốc gia nào được hỗ trợ trong input.country?
Trường quốc gia chấp nhận các mã ISO 3166-1 alpha-2 và được xác thực từng bước với US và GB. Dấu chân proxy cư trú hỗ trợ tác nhân trải rộng trên hơn 195 quốc gia, vì vậy hầu hết các mã phổ biến (DE, FR, JP, CA, AU, BR, IN, ES, IT, NL) đều hoạt động; một mã không được hỗ trợ sẽ trả về execution failed. Xác minh với quốc gia cụ thể của bạn bằng một kiểm tra nhỏ trước khi mở rộng quy mô.

Q4: Một cuộc gọi đơn lẻ nhanh như thế nào?
Độ trễ từ đầu đến cuối thường là 12–18 giây trong việc xác minh. Phần lớn thời gian này là chờ máy chủ để Tổng quan AI ổn định phía sau chỗ giữ chỗ "đang tạo" của Google — tác nhân chỉ trả về nội dung đã được kết xuất, không phải chỗ giữ chỗ.

Q5: Tôi có thể xử lý nhiều truy vấn song song không?
Có. Bắt đầu với ba đến năm công nhân song song mỗi mã thông báo và tăng dần trong khi theo dõi tỷ lệ execution failed. Giới hạn tần suất công khai và mức độ đồng thời không được tài liệu hóa; hãy liên hệ với bộ phận hỗ trợ của Scrapeless cho các làn đường có khối lượng lớn.

Q6: scraper.overview khác gì so với scraper.google.search và scraper.aimode?
scraper.overview trả về khối Tổng quan AI cụ thể — nội dung, trích dẫn, panel liên quan, vị trí tài trợ, cờ mua sắm. scraper.google.search trả về phần còn lại của SERP — mười liên kết hữu cơ màu xanh, Đoạn trích Nổi bật, Mọi người cũng hỏi, Panel Kiến thức, Tìm kiếm Liên quan. scraper.aimode trả về trang hội thoại Chế độ AI riêng biệt của Google. Để có cái nhìn đầy đủ về cách mà Tìm kiếm AI của Google trình bày một chủ đề, hãy thu thập cả ba trên cùng một truy vấn, cùng một quốc gia, cùng một thời gian.

Q7: Tôi có thể lấy danh sách sản phẩm có cấu trúc cho các AIO mua sắm không?
Vâng, cho một số AIO mua sắm. Khi được điền, task_result.products là một mảng của {name, price, orig_price, discount, rating, review_count, seller, img, url, delivery, stores, section_title} (một số trường chuỗi có thể để trống khi Google không hiển thị thuộc tính đó). Nó là null đối với các AIO mua sắm khác ngay cả khi is_shopping là true — trong quá trình xác minh, 1 trong 5 lần chụp mua sắm trả về một mảng 10 mục; phần còn lại là null. Khi trường là null, đọc các ứng viên sản phẩm từ task_result.source (thường là trang của nhà bán lẻ) và phân tích các đề cập nội tuyến trong task_result.content. Luôn lập trình phòng ngừa chống lại null (result.get("products") hoặc []).

Q8: is_overview_shopping có nghĩa là gì và nó khác gì so với is_shopping?
is_shopping là đúng khi SERP cơ bản có một mô-đun mua sắm (băng chuyền ở trên kết quả tự nhiên). is_overview_shopping là đúng khi Google phân loại AI Overview bản thân là hướng tới mua sắm. purchase_link là đúng khi cơ thể AIO chứa ít nhất một URL mua hàng trực tiếp. Sử dụng sự kết hợp này để lọc cho các AIO có ý định thương mại trong các đường ống thông tin bán lẻ.

Q9: Tôi có cần tự xử lý placeholder tải chậm không?
Không. AIO hiển thị phía sau một placeholder "đang tạo", và tác giả sẽ hỏi máy chủ cho đến khi cơ thể được ổn định trước khi trả về. Việc thăm dò đó là thành phần chủ yếu của độ trễ đầu cuối khoảng 12–18 giây. Các bên gọi không thực hiện vòng lặp chờ.

Q10: Tôi nên lưu trữ phản hồi như thế nào cho việc giám sát lâu dài?
Tài liệu tham khảo API đầy đủ và sân chơi yêu cầu trực tiếp: apidocs.scrapeless.com. Tài liệu SDK và tích hợp: docs.scrapeless.com.

Tại Scrapless, chúng tôi chỉ truy cập dữ liệu có sẵn công khai trong khi tuân thủ nghiêm ngặt các luật, quy định và chính sách bảo mật trang web hiện hành. Nội dung trong blog này chỉ nhằm mục đích trình diễn và không liên quan đến bất kỳ hoạt động bất hợp pháp hoặc vi phạm nào. Chúng tôi không đảm bảo và từ chối mọi trách nhiệm đối với việc sử dụng thông tin từ blog này hoặc các liên kết của bên thứ ba. Trước khi tham gia vào bất kỳ hoạt động cạo nào, hãy tham khảo ý kiến cố vấn pháp lý của bạn và xem xét các điều khoản dịch vụ của trang web mục tiêu hoặc có được các quyền cần thiết.

Bài viết phổ biến nhất

n8n + LLM Scraper: Nắm bắt câu trả lời AI trong quy trình không mã

Xây dựng một quy trình n8n để thu thập câu trả lời của LLM theo lịch trình với một nút yêu cầu HTTP đến Scrapeless LLM Chat Scraper, không cần mã và không cần trình duyệt.

Alex Johnson

18-Jun-2026

luồng n8n ghi lại các câu trả lời LLM qua nút Yêu cầu HTTP

Cách nâng cao Crawl4AI với Trình duyệt đám mây Scrapeless

Học cách tích hợp Crawl4AI với Scrapeless Cloud Browser để thu thập dữ liệu web hiệu quả và quy mô lớn. Mở khóa proxy tự động, dấu vân tay tùy chỉnh, tái sử dụng phiên và gỡ lỗi theo thời gian thực.

Michael Lee

20-Oct-2025

Cách cải thiện Crawl4AI với Trình duyệt Đám mây Scrapeless

Máy chủ MCP không bị bỏ qua chính thức hoạt động! Xây dựng Kết nối AI-Web Tối ưu của bạn.

Khám phá cách mà Máy chủ MCP không mảnh vỡ cung cấp cho LLM khả năng duyệt web và thu thập dữ liệu theo thời gian thực. Tìm hiểu cách xây dựng các tác nhân AI có thể tìm kiếm, trích xuất và tương tác với nội dung web động một cách liền mạch.