LLM抓取器
Expert Network Defense Engineer
随着AI搜索取代传统搜索引擎,更多用户查询、内容和决策在如ChatGPT、Perplexity、Copilot、Gemini和Google AI概述等模型内部进行。品牌和团队需要一种方式来收集、分析和监控来自这些AI引擎的实时洞察——包括提示、答案、引用、排名、趋势和竞争对手提及。
LLM Chat Scraper API正是为此目的而构建。
它提供一个统一的爬取接口,从所有主要AI模型中提取结构化的实时数据——允许您将结果用于GEO(生成引擎优化)、竞争对手监控、内容策略优化和搜索智能。
快速入门
使用LLM Chat Scraper API包括两个简单步骤:
第1步:创建任务
发送POST请求以创建爬取任务。如果指定了webhook.url,任务完成后结果将自动推送。
请求示例
bash
curl '{api_host}/api/v2/scraper/request' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}' \
--data '{
"actor": "scraper.chatgpt",
"input": {
"prompt": "最可靠的数据提取代理服务",
"country": "US",
"web_search": true
},
"webhook": {
"url": "http://www.youwebhook.com"
}
}'
第2步:获取结果
结果存储5分钟。确保及时获取。
请求示例
bash
curl --request GET '{api_host}/api/v2/scraper/result/{task_id}' \
--header 'Content-Type: application/json' \
--header 'x-api-token: {you_api_key}'
常见参数
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
| actor | 字符串 | 是 | 爬虫类型(例如,scraper.chatgpt) |
| webhook | 对象 | 否 | Webhook配置 |
| webhook.url | 字符串 | 否 | 推送任务结果的URL |
| input | 对象 | 是 | 任务特定的输入字段 |
结果数据结构
| 字段 | 类型 | 必需 | 描述 |
|---|---|---|---|
| status | 字符串 | 是 | 任务状态:pending / running / success / failed |
| message | 字符串 | 否 | 错误消息(如果有) |
| task_result | 对象 | 否 | 最终结果字段(因演员而异) |
Webhook推送格式
如果指定了webhook.url,API通过POST发送结果。
| 字段 | 类型 | 必需 | 描述 |
|---|---|---|---|
| task_id | 字符串 | 是 | 唯一任务ID |
| status | 字符串 | 是 | success或failed |
| input | 字符串 | 是 | 原始请求参数作为JSON字符串 |
| task_result | 对象 | 否 | 结果负载 |
HTTP状态码
| 状态码 | 描述 |
|---|---|
| 200 | 成功获取结果 |
| 201 | 任务创建成功 |
| 202 | 任务仍在运行 |
| 400 | 请求错误 |
| 410 | 任务已过期(存储12小时) |
| 429 | 请求过多 |
爬虫概述
以下是支持的AI模型爬虫及其数据格式。
1. ChatGPT爬虫
主体参数
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
| prompt | 字符串 | 是 | 用户提示 |
| country | 字符串 | 是 | 国家/地区 |
| web_search | 布尔值 | 否 | 启用内置浏览器搜索 |
响应字段
| 字段 | 描述 |
|---|---|
| prompt | 原始提示 |
| result_text | Markdown格式的响应 |
| model | 使用的模型(例如,gpt-5-1) |
| web_search | 是否启用搜索 |
| links | 提取的链接 |
| search_result | 网络搜索结果 |
| content_references | 来源引用 |
2. Perplexity爬虫
主要响应字段
- prompt
- result_text
- related_prompt(相关问题)
- web_results(标题、URL、摘要)
- media_items(视频、地图、图片)
- locations(纬度/经度、描述、类别、地址)
支持丰富的结构化数据,涵盖旅行、本地信息、新闻和热门话题。
3. Copilot Scraper
支持多种模式:
搜索,智能,聊天,推理,学习
请求参数
| 参数 | 描述 |
|---|---|
| 提示 | 输入提示 |
| 国家 | JP 和 TW 不支持 |
| 模式 | 搜索 / 智能 / 聊天 / 推理 / 学习 |
响应字段
- result_text
- prompt
- mode
- links
- citations
4. Gemini Scraper
响应字段
- result_text
- prompt
- citations (网站图标,高亮,摘录,网站名称)
支持类似谷歌Gemini响应的丰富引用结构。
5. Google AI模式抓取器
用于抓取 Google AI概述 / AIO响应。
响应字段
| 字段 | 描述 |
|---|---|
| result_text | 主要AI回答 |
| result_html | 原始HTML |
| raw_url | 来源URL |
| citations | 带缩略图的引用数据 |
| search_result | 传统搜索结果(如果可用) |
帮助与常见问题解答
计费
如果生成的结果在5分钟内未被检索,仍将计费请求。
为避免浪费:
- 立即检索结果,或
- 配置 webhook 以自动接收结果
数据来源
我们仅抓取 公共、无登录访问的数据,确保合规和隐私保护。
支持的国家/地区
(部分列表如下)
| 国家/地区 | 代码 |
|---|---|
| 奥地利 | AT |
| 澳大利亚 | AU |
| 比利时 | BE |
| 日本 | JP |
| 新加坡 | SG |
| 台湾 | TW |
| 美国 | US |
| … | … |
完整包含 195+ 个国家 的列表可根据请求提供。
结论
LLM聊天抓取器API使团队能够:
- 监测所有AI聊天平台上的品牌提及
- 追踪竞争对手在AI回答中的存在和排名
- 分析模型输出、引用和趋势
- 构建GEO(生成引擎优化)策略
- 自动化实时情报管道
- 从整个AI搜索生态系统中访问结构化数据
它不仅仅是一个抓取器——它是 AI搜索时代的数据基础设施层。
联系我们 解锁完整的GEO数据解决方案——
使每一条内容都得到数据的支持,与算法行为保持一致,并为可衡量的增长做好定位。
在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。



