🎯 一款可定制、具备反检测功能的云浏览器,由自主研发的 Chromium驱动,专为网页爬虫AI 代理设计。👉立即试用
返回博客

LLM抓取器

Michael Lee
Michael Lee

Expert Network Defense Engineer

10-Dec-2025

随着AI搜索取代传统搜索引擎,更多用户查询、内容和决策在如ChatGPT、Perplexity、Copilot、Gemini和Google AI概述等模型内部进行。品牌和团队需要一种方式来收集、分析和监控来自这些AI引擎的实时洞察——包括提示、答案、引用、排名、趋势和竞争对手提及。

LLM Chat Scraper API正是为此目的而构建。

它提供一个统一的爬取接口,从所有主要AI模型中提取结构化的实时数据——允许您将结果用于GEO(生成引擎优化)、竞争对手监控、内容策略优化和搜索智能。


快速入门

使用LLM Chat Scraper API包括两个简单步骤:


第1步:创建任务

发送POST请求以创建爬取任务。如果指定了webhook.url,任务完成后结果将自动推送。

请求示例

bash Copy
curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}' \
--data '{
  "actor": "scraper.chatgpt",
  "input": {
    "prompt": "最可靠的数据提取代理服务",
    "country": "US",
    "web_search": true
  },
  "webhook": {
    "url": "http://www.youwebhook.com"
  }
}'

第2步:获取结果

结果存储5分钟。确保及时获取。

请求示例

bash Copy
curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}'

常见参数

参数 类型 必需 描述
actor 字符串 爬虫类型(例如,scraper.chatgpt)
webhook 对象 Webhook配置
webhook.url 字符串 推送任务结果的URL
input 对象 任务特定的输入字段

结果数据结构

字段 类型 必需 描述
status 字符串 任务状态:pending / running / success / failed
message 字符串 错误消息(如果有)
task_result 对象 最终结果字段(因演员而异)

Webhook推送格式

如果指定了webhook.url,API通过POST发送结果。

字段 类型 必需 描述
task_id 字符串 唯一任务ID
status 字符串 success或failed
input 字符串 原始请求参数作为JSON字符串
task_result 对象 结果负载

HTTP状态码

状态码 描述
200 成功获取结果
201 任务创建成功
202 任务仍在运行
400 请求错误
410 任务已过期(存储12小时)
429 请求过多

爬虫概述

以下是支持的AI模型爬虫及其数据格式。


1. ChatGPT爬虫

主体参数

参数 类型 必需 描述
prompt 字符串 用户提示
country 字符串 国家/地区
web_search 布尔值 启用内置浏览器搜索

响应字段

字段 描述
prompt 原始提示
result_text Markdown格式的响应
model 使用的模型(例如,gpt-5-1)
web_search 是否启用搜索
links 提取的链接
search_result 网络搜索结果
content_references 来源引用

2. Perplexity爬虫

主要响应字段

  • prompt
  • result_text
  • related_prompt(相关问题)
  • web_results(标题、URL、摘要)
  • media_items(视频、地图、图片)
  • locations(纬度/经度、描述、类别、地址)
    支持丰富的结构化数据,涵盖旅行、本地信息、新闻和热门话题。

3. Copilot Scraper

支持多种模式:
搜索智能聊天推理学习

请求参数

参数 描述
提示 输入提示
国家 JP 和 TW 不支持
模式 搜索 / 智能 / 聊天 / 推理 / 学习

响应字段

  • result_text
  • prompt
  • mode
  • links
  • citations

4. Gemini Scraper

响应字段

  • result_text
  • prompt
  • citations (网站图标,高亮,摘录,网站名称)

支持类似谷歌Gemini响应的丰富引用结构。


5. Google AI模式抓取器

用于抓取 Google AI概述 / AIO响应

响应字段

字段 描述
result_text 主要AI回答
result_html 原始HTML
raw_url 来源URL
citations 带缩略图的引用数据
search_result 传统搜索结果(如果可用)

帮助与常见问题解答

计费

如果生成的结果在5分钟内未被检索,仍将计费请求。
为避免浪费:

  • 立即检索结果,或
  • 配置 webhook 以自动接收结果

数据来源

我们仅抓取 公共、无登录访问的数据,确保合规和隐私保护。


支持的国家/地区

(部分列表如下)

国家/地区 代码
奥地利 AT
澳大利亚 AU
比利时 BE
日本 JP
新加坡 SG
台湾 TW
美国 US

完整包含 195+ 个国家 的列表可根据请求提供。


结论

LLM聊天抓取器API使团队能够:

  • 监测所有AI聊天平台上的品牌提及
  • 追踪竞争对手在AI回答中的存在和排名
  • 分析模型输出、引用和趋势
  • 构建GEO(生成引擎优化)策略
  • 自动化实时情报管道
  • 从整个AI搜索生态系统中访问结构化数据

它不仅仅是一个抓取器——它是 AI搜索时代的数据基础设施层

联系我们 解锁完整的GEO数据解决方案——
使每一条内容都得到数据的支持,与算法行为保持一致,并为可衡量的增长做好定位。

在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。

最受欢迎的文章

目录