LLM抓取器

Michael Lee

Expert Network Defense Engineer

10-Dec-2025

随着AI搜索取代传统搜索引擎，更多用户查询、内容和决策在如ChatGPT、Perplexity、Copilot、Gemini和Google AI概述等模型内部进行。品牌和团队需要一种方式来收集、分析和监控来自这些AI引擎的实时洞察——包括提示、答案、引用、排名、趋势和竞争对手提及。

LLM Chat Scraper API正是为此目的而构建。

它提供一个统一的爬取接口，从所有主要AI模型中提取结构化的实时数据——允许您将结果用于GEO（生成引擎优化）、竞争对手监控、内容策略优化和搜索智能。

快速入门

使用LLM Chat Scraper API包括两个简单步骤：

第1步：创建任务

发送POST请求以创建爬取任务。如果指定了webhook.url，任务完成后结果将自动推送。

请求示例

bash Copy

curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}' \
--data '{
  "actor": "scraper.chatgpt",
  "input": {
    "prompt": "最可靠的数据提取代理服务",
    "country": "US",
    "web_search": true
  },
  "webhook": {
    "url": "http://www.youwebhook.com"
  }
}'

第2步：获取结果

结果存储5分钟。确保及时获取。

请求示例

bash Copy

curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}'

常见参数

参数	类型	必需	描述
actor	字符串	是	爬虫类型（例如，scraper.chatgpt）
webhook	对象	否	Webhook配置
webhook.url	字符串	否	推送任务结果的URL
input	对象	是	任务特定的输入字段

结果数据结构

字段	类型	必需	描述
status	字符串	是	任务状态：pending / running / success / failed
message	字符串	否	错误消息（如果有）
task_result	对象	否	最终结果字段（因演员而异）

Webhook推送格式

如果指定了webhook.url，API通过POST发送结果。

字段	类型	必需	描述
task_id	字符串	是	唯一任务ID
status	字符串	是	success或failed
input	字符串	是	原始请求参数作为JSON字符串
task_result	对象	否	结果负载

HTTP状态码

状态码	描述
200	成功获取结果
201	任务创建成功
202	任务仍在运行
400	请求错误
410	任务已过期（存储12小时）
429	请求过多

爬虫概述

以下是支持的AI模型爬虫及其数据格式。

1. ChatGPT爬虫

主体参数

参数	类型	必需	描述
prompt	字符串	是	用户提示
country	字符串	是	国家/地区
web_search	布尔值	否	启用内置浏览器搜索

响应字段

字段	描述
prompt	原始提示
result_text	Markdown格式的响应
model	使用的模型（例如，gpt-5-1）
web_search	是否启用搜索
links	提取的链接
search_result	网络搜索结果
content_references	来源引用