如何使用Scrapeless Agent浏览器构建亚马逊爬虫:2026年逐步指南
Advanced Data Extraction Specialist
关键要点:
- 动态渲染,而非原始 HTML。 亚马逊产品详情页面、搜索结果和评论在客户端进行加载——Scrapeless Agent Browser 在真正的云浏览器中进行渲染。特别是在亚马逊上,
wait --load networkidle并不可靠(懒加载的广告/信标流持续触发);使用wait 1500然后wait '<稳定选择器>'(例如,在产品详情页使用#productTitle,在/s页面使用[data-asin]:not([data-asin=""]))。 - 每会话地理路由。
--proxy-country、--proxy-state、--proxy-city、--timezone和--languages保持每个请求在.com、.co.uk、.de和.co.jp之间的一致区域设置。 - 发现 → 提取流程。 亚马逊在 A/B 变体之间轮换类名和属性钩子。在编写选择器之前,使用
get html读取 DOM,然后使用eval提取——决不要在发布代码中硬编码类名。 - 每个逻辑操作一个新会话。 在实践中,Scrapeless 会话在 2-3 次连续的加载页面提取中保持干净。超过这个次数,它们可能开始返回
chrome://new-tab-page或静默终止。每个页面或小批量生成新会话,而不是重用一个长久的会话进行 20 次以上请求。
引言
亚马逊是开放网络上单一最大的产品数据来源:价格情报、评论挖掘、畅销商品排名监控、最低广告价格合规以及品牌保护都源自同一公共列表页面。官方产品广告 API 有严格的批准周期,并且不公开评论正文、畅销商品排名时间序列或竞争对手卖家的数据——因此大多数严谨的亚马逊数据管道仍然依赖抓取。
现代亚马逊抓取程序必须同时处理几个现实问题:页面在 JavaScript 中加载,类名在 A/B 变体中轮换,cookies 和地区状态需要在分页请求中保持一致,基于 IP 声誉的过滤对数据中心出口的限制很严格。在一个原始的 HTTP 客户端上处理这四个问题——或在本地安装的 Playwright 上——会增加数周的维护工作,没有人愿意承担。
本指南演示了基于 Scrapeless Agent Browser 的终端优先工作流程,处理那些通常需要数周的部分:反检测指纹、住宅代理、动态渲染和跨市场领域一致性——这一切都通过一个 scrapeless-scraping-browser CLI 实现。
你可以用它做什么
- 动态竞争定价。 实时跟踪
.com上竞争对手的 ASIN 价格,将信号输入到重新定价规则中,并监控促销窗口,无需运行本地浏览器。 - 最低广告价格合规监控。 扫描零售商列表和第三方卖方报价,与您制造商设定的最低广告价格进行对比,识别违反情况。
- 产品详情页评论信号。 聚合每个产品详情页上显示的顶级评论(每个 ASIN 通过第 3 步提取 5-10 条评论)——足以进行趋势检测和声誉监控。2026年,跨
/product-reviews/*的全语料库评论挖掘需要经过身份验证的会话;请参见第 5 步。 - 库存和可用性跟踪。 监控缺货、Prime 资格变更和发货时间变化,以预测供应链压力。
- 畅销商品排名和排名智能。 提取各类和子类的畅销商品排名,用于市场规模、发布跟踪和类别份额分析。
- 品牌保护。 检测伪造列表、未经授权的第三方卖家和商标侵权情况。
为什么选择 Scrapeless Agent Browser
Scrapeless Agent Browser 是一个可定制的、反检测的云浏览器,专为网页爬虫和 AI 代理设计。针对亚马逊,它提供:
- 在 195+ 个国家的住宅代理(
--proxy-country、--proxy-state、--proxy-city),用于区域匹配的出口——这是躲避亚马逊反机器人中介的基本要素。 - 每个会话的反检测指纹,确保页面的呈现与自然流量相同。
- 会话持久性,通过
--session-id实现跨分页请求,这样 cookie、购物车和 Prime 上下文在页面间保持一致。 - 云浏览器中的 JavaScript 渲染,确保价格块、可用性横幅、懒加载评论正文和 A+ 内容的 DOM 被正确加载。
- 每会话的区域一致性——
--timezone和--languages根据所选代理地理位置自动对齐。
在 scrapeless.com 的 免费计划 上获取您的 API 密钥。相关的 Scrapeless 产品包括:通用抓取 API、代理解决方案 和 Scrapeless MCP 服务器 用于模型上下文协议集成。
如果 API 风格的界面比浏览器更适合您的管道,请参见随附的 Amazon Scraper API 和 Scraping Amazon Product Data 指南。有关全面的亚马逊解决方案中心,请访问 scrapeless.com/en/solutions/amazon。
先决条件
- Node.js 18 或更高版本。
- 一个 Scrapeless 帐户和 API 密钥 — 请在 scrapeless.com 注册。
jq(可选,适用于 shell 脚本中的 JSON 解析 — 下面显示了一个便携式grep后备)。- 对终端的基本熟悉。
安装
下面的操作在 scrapeless-scraping-browser CLI 上运行。设置分为三个步骤 — CLI 用户和 AI 代理用户都需要步骤 #1 和 #2;AI 代理用户还需要步骤 #3。
1. 安装 CLI 包
bash
npm install -g scrapeless-scraping-browser
这会提供每一步指南调用的 scrapeless-scraping-browser 二进制文件。该技能不带有自己的运行时 — 它将命令模式加载到您的 AI 代理中,但必须先安装 CLI。
2. 配置您的 API 密钥
从 scrapeless.com 获取您的令牌,然后将其存储在 CLI 可以读取的位置:
bash
scrapeless-scraping-browser config set apiKey your_api_token_here
scrapeless-scraping-browser config get apiKey # 验证
使用 AI 代理? 该技能的说明明确告诉您的代理在任何会话调用之前需要进行身份验证。如果在代理首次尝试使用 CLI 时未设置 API 密钥,代理将提示您并为您运行 config set apiKey … 命令 — 您可以现在手动设置(上面的命令)或在代理询问时粘贴您的令牌。
配置文件位于 ~/.scrapeless/config.json,仅限当前用户访问,优先于环境变量,并且可以在代理和 CI 运行器之间移植。对于 CI 管道,建议使用:
bash
export SCRAPELESS_API_KEY=your_api_token_here
3. 在您的 AI 代理中安装 Scrapeless 技能
这是与上述步骤 1 不同的步骤。步骤 1 安装的是 CLI 二进制文件 — 您的代理所调用的运行时。技能则是教您代理如何正确调用它(选择器、等待、重试模式、发现→提取工作流程)。这两者是不同的,您需要同时具备。
该技能是一个包含 SKILL.md + skill.json + references/ 的文件夹。规范来源是 scrapeless-ai/scrapeless-agent-browser → skills/scraping-browser-skill GitHub 仓库。
要在 Claude Code、Cursor、VS Code + GitHub Copilot、OpenAI Codex CLI 或 Gemini CLI 中安装它,请按照 Scrapeless AI Agent 安装指南 操作 — 它提供每个代理的复制粘贴命令(bash 和 Windows PowerShell)。安装后重载您的代理以使技能生效。
如果没有安装技能,您的代理将不了解发现→提取模式、每个引擎的等待时间或真正有效的选择器,并且您必须在每个提示中逐个提供每个细节。
技能在您的代理操作上下文中预加载的内容:
- 身份验证 — 检查
~/.scrapeless/config.json或SCRAPELESS_API_KEY,如果缺失则提示您设置(见步骤 2)。 - 发现 → 提取工作流程 — 反脆弱模式。代理首先通过
get html "<region>"读取实时 DOM,识别稳定锚点(data-*属性,aria-label,role,语义 ID),然后根据真实渲染内容编写eval选择器 — 而不是猜测在 A/B 变体中轮换的实用程序类名,这些类名在几周内就会失效。 - 选择器语法 — 何时使用 CSS 选择器(
#productTitle,[data-asin])与可访问性引用(@e1从snapshot -i)。 - 等待注意事项 — 在
open和wait --load networkidle之间使用wait 1500来避免冷会话chrome://new-tab-page竞争;在网络空闲无法解决时,对目标页面元素使用wait <selector>。 - 并行 CLI 工作者 — 单壳
&&链接,唯一会话名称,每个主机 ≤3 个并发工作者。仅使用--session-id在守护进程争用下是不够的。 - 常见陷阱 —
eval返回 JSON 引号值("49.99"而不是49.99),open在成功导航时返回非零状态,当连接关闭时会话终止。 - 完整命令参考 — 每个标志对应于
new-session、open、wait、eval、get、click、fill、snapshot、auth、profile、recording、stop等。
4. 验证技能已连接
在第一次真正的亚马逊抓取之前,使用一个安全的提示对您的代理进行烟雾测试:
“使用 Scrapeless 技能,打开 https://example.com 并告诉我页面标题。”
您的代理应该生成一个 Scrapeless 会话,导航并回复 “示例域”。如果您看到这两个词,说明技能已加载,API 密钥已设置,云浏览器可访问——您准备好抓取亚马逊了。
如果失败:
| 症状 | 可能原因 | 修复 |
|---|---|---|
| “我没有工具/技能可以做到这一点” | 此代理会话中未加载技能 | 通过 技能安装指南 重新安装并重新加载代理 |
身份验证失败 / 401 |
API 密钥未设置 | 重新运行 scrapeless-scraping-browser config set apiKey <token>(安装步骤 2) |
未找到命令 |
CLI 二进制文件在 PATH 中缺失 | 重新运行安装步骤 1 (npm install -g scrapeless-scraping-browser) |
挂起 / 落在 chrome://new-tab-page/ |
冷会话等待竞争 | 要求代理重试 — 技能知道在 open 和 wait --load networkidle 之间插入 wait 1500 |
亚马逊上的 page.goto: 超过 25000ms 的超时(但 example.com 可以工作) |
Scrapeless ↔ 亚马逊住宅代理 CAPTCHA 压力 | 在不同的代理国家重试 (--proxy-country GB/CA/DE);长期使用,切换到 Scrapeless 亚马逊刮刀 API |
如何实际使用:提示您的代理
安装后,您通过 与代理对话 来抓取亚马逊——而不是通过复制粘贴 bash。技能将选择器、等待、重试分类器以及发现→提取模式加载到代理的上下文中,因此一句自然语言提示足以获取结构化的 JSON 返回。
可粘贴的提示
| 您对代理说 | 您得到的响应 |
|---|---|
| “抓取亚马逊的 AirPods — 前 10 名,包含标题、价格、评级、ASIN” | JSON 列表,10 个卡片,字段 {title, price, rating, asin, url, sponsored} |
| “获取 ASIN B09B8V1LZ3 的完整产品详情” | JSON 对象:{title, price, rating, reviewCount, availability, prime, asin, topReviews[]} |
| “在亚马逊搜索中抓取 '无线耳机' 1-5 页,保存为 headphones.json” | 一个 JSON 文件,每页约 22 条自然卡片,按 ASIN 去重,共 5 页 |
| “从 Echo Dot 产品页面提取顶级评论” | JSON 数组 — 作者、评级、标题、日期、正文、有用计数 — 针对 PDP 评论轮播 |
| “比较亚马逊网站和英国亚马逊上 ASIN B09B8V1LZ3 的价格” | 并排价格;.es/.de 匿名阻塞 — 代理会告诉您,并提供刮刀 API 路径 |
| “跟踪 ASIN B09B8V1LZ3 在接下来的 6 小时内每小时的价格” | 轮询循环,每次轮询新会话,结果附加到 CSV/JSON |
| “查找电子产品中的畅销商品 → 前 20 名,包含价格 + 评级” | JSON,来自 /gp/bestsellers/electronics 的 20 行 |
| “抓取这个列表并告诉我它是否适合 Prime: https://amazon.com/dp/B09B8V1LZ3” | 单一对象,带 prime: true/false 以及来自徽章的支持证据文本 |
| “获取 B09B8V1LZ3 的评分直方图 (5★/4★/3★/2★/1★ %)” | 2026 年授权 - 代理将解释并提供刮刀 API 路径 |
| “搜索 '200 以下的办公椅',过滤广告,返回前 10 个自然结果” | 仅有机 JSON;通过 [data-component-type="sp-sponsored-result"] 去除赞助卡片 |
| “在亚马逊上的 Apple Store 当前有哪些特价?” | 进入商店前台,然后提取带有特价标签的商品 |
| “对于 ASIN B09B8V1LZ3,列出要点特色和 A+ 部分文本” | 两个数组:来自 #feature-bullets 的特色要点和 A+ 段落 |
示例:获取 ASIN B09B8V1LZ3 的完整产品卡
您输入:
“获取亚马逊 ASIN B09B8V1LZ3 的标题、价格、评级、评论数量和前 5 条评论。返回 JSON。”
代理的计划(用简单英语):
- 创建一个美国出口会话(亚马逊根据 IP 本地化)。
- 打开
https://www.amazon.com/dp/B09B8V1LZ3,wait 1500,然后wait '#productTitle'以避免冷会话竞争。- 通过
get html "#centerCol"确认锚点(处理亚马逊频繁的布局更换),然后eval获取#productTitle、.a-price .a-offscreen、#acrPopover[title]、#acrCustomerReviewText和[data-hook="review"]× 5。
您得到的响应(模式是规范 - JSON 形状;评论文本下面是一个说明性示例):
json
{
"asin": "B09B8V1LZ3",
"title": "Echo Dot (第 5 代,2022 发布) | 音质丰富...",
"price": "$49.99",
"rating": "4.7 星(满分 5 星)",
"reviewCount": "191,146 条评级",
"availability": "有现货",
"prime": true,
"topReviews": [
{
// 说明性 — 实际评论字段来自 [data-hook="review"] × 5 的填充
"author": "James M.",
"rating": "5.0 星(满分 5 星)",
"title": "优质的语音质量,易于设置",
"date": "2026年3月14日在美国审阅",
"body": "设置只花了两分钟。语音识别明显更清晰..."
}
// ... 另外4个形状相同的评论
]
}
primeEligible: prime, url: location.href,
});
})()
'
对于更丰富的架构(特性、品牌、卖家、发货地、图像画廊、变体矩阵),请针对每个区域重复发现→提取循环。ASIN级别的维基指南和产品价格维基指南记录了额外的字段。
第 4 步 — 抓取带分页的类别搜索
亚马逊通过 &page=N 对搜索结果进行分页。单个查询的可访问有机深度大约为 20 页(~400 个项目)——这是一个结构性索引限制。为了获得更广泛的覆盖,按特征(品牌、价格区间、子类别)拆分查询,而不是超出限制。
bash
QUERY="无线耳机"
for page in $(seq 1 20); do
# 为每一页创建一个新会话——长时间会话重用在
# ~3 次充水页面请求后会降低效能(默默返回 chrome://new-tab-page 或
# 直接终止)。每页一个会话更可靠且容易并行化。
SID=$(scrapeless-scraping-browser new-session --name "search-p$page" --ttl 300 \
--json | jq -r '.data.taskId')
URL="https://www.amazon.com/s?k=$QUERY&page=$page"
scrapeless-scraping-browser --session-id $SID open "$URL"
# networkidle 在 /s 上永远不会稳定,因为懒加载流;取而代之等待卡片
scrapeless-scraping-browser --session-id $SID wait '[data-asin]:not([data-asin=""])'
scrapeless-scraping-browser --session-id $SID eval "
(() => {
const cards = document.querySelectorAll('[data-asin]:not([data-asin=\"\"])');
// 卡片数量变化 (~16–60,取决于视口、查询和 A/B 变种);
// 发出每页的索引,让消费者从中计算绝对排名
// 以及页码,而不是在这里假设固定的乘数。
return JSON.stringify({
query: '$QUERY', page: $page,
results: [...cards].map((c, i) => ({
pageIndex: i + 1,
asin: c.getAttribute('data-asin'),
title: c.querySelector('h2 span')?.textContent?.trim() || null,
price: c.querySelector('.a-price .a-offscreen')?.textContent || null,
// 评分:尝试多个星级小部件表面——亚马逊会轮换这些
rating: parseFloat(
c.querySelector('[aria-label*=\"out of 5 stars\"]')?.getAttribute('aria-label')
|| c.querySelector('i.a-icon-star span.a-icon-alt, i.a-icon-star-small span.a-icon-alt')?.textContent
|| ''
) || null,
sponsored: c.querySelector('[data-component-type=\"sp-sponsored-result\"]') !== null || c.matches('[data-component-type=\"sp-sponsored-result\"]'),
prime: !!c.querySelector('[aria-label*=\"Prime\"]'),
url: c.querySelector('a.a-link-normal.s-underline-link-text')?.href || null,
})),
});
})()
" > "results-page-$page.json"
scrapeless-scraping-browser stop $SID
done
每页一个新会话,而不是一个长期会话。 理论上,重用 --session-id 保留 cookies 和指纹;在实践中,Scrapeless 会话在 ~3 次充水页面请求后开始返回空白的 chrome://new-tab-page 或终止,因此可靠的模式是在每页创建一个短期会话并在结束时停止它。然后跨页面并行化非常简单——在后台工作线程中运行循环体而无需协调。
在页面 1-5 之间,ASIN 并非唯一(赞助的 ASIN 合法地重复——观察到 104 个唯一 / 274 个总计);在去重时不要假设跨页面的 ASIN 集是不相交的。
将并发保持在每主机 ≤ 3。 在同一本地守护进程上对相同页面进行 4 个或更多同时 CLI 调用会导致目标页面崩溃和“目标页面、上下文或浏览器在 eval 中途被关闭”错误。为了提高吞吐量,应该在多个主机(或多个用户帐户)之间进行分片,而不是在单个节点上增加并发。
正在运行并行工作者? 默认的
~/.scrapeless-scraping-browser/守护进程在同一主机上的进程之间共享——多个工作者即使每个都传递自己的--session-id也可能劫持彼此的会话。什么实际有效:将一个作业的每个 CLI 调用链接成一个单一 shell&&调用(从守护进程的 POV 原子——其他工作者无法在你的步骤之间交错),使用唯一的会话名称(端口从名称哈希),并将每主机的并发限制在 3 个工作者左右。USERPROFILE/HOME环境变量隔离在上游技能中有文档,但在我们的测试中并没有隔离 Windows 上的 Rust v0.1.1 二进制文件——为了更高的扇出,跨主机分片。有关完整模式,请参见skill-dev/SKILL.md的“并行 CLI 代理”。
有关更深层次覆盖策略,请参见如何抓取亚马逊分类数据。
第 5 步 — 关于评论和星级直方图的说明
在 2025 年,/product-reviews/<ASIN>/ 页面可匿名访问,星级过滤 × 页码的笛卡尔积使得完整的评论数据抓取变得简单。在 2026 年,亚马逊更改了入口:对评论 URL 的匿名请求在绝大多数情况下会重定向到 /ap/signin。产品详细页面上的评论轮播([data-hook="review"] 在主产品详细页面内)仍然可以匿名访问——这是在第 3 步提取中显示的前 5-10 条评论——但是每个星级过滤的深度遍历以及评论页面上的星级直方图需要经过身份验证的会话。
有两条实用的前进路径:
- 使用产品详细页面上的前 评价(可在第 3 步提取中获得;无需额外导航)当每个 ASIN 的 5-10 条评论足够时——通常适用于声誉监控和趋势检测。
- 对于完整的评论数据集,将抓取浏览器与经过身份验证的会话状态配对。
auth save <name>用于存储凭证,auth login <name>用于重放它们,但每次新登录时仍会出现 MFA 提示——对没有 MFA 强制的亚马逊账户才实用。对于需要以大规模获取完整历史评论集的管道,Scrapeless 亚马逊抓取 API 处理服务器端身份验证,因此调用者无需处理。
无论如何,在 2026 年别尝试匿名 /product-reviews/* 抓取——在前几个请求后,每个请求都会转到 /ap/signin,会话对评论工作实际上已无效。
第 6 步 — 关于跨市场快照的说明
ASIN 在全球范围内稳固——定价、可用性和卖家池在 .com、.co.uk、.de 和 .co.jp 之间存在差异——原则上,每个市场都有一个对齐的代理会话是自然模式。实际上,针对非美国市场的 US 路由会话经常会落在本地区域插页上(例如,amazon.es/dp/<ASIN> 返回西班牙语的“继续购物”页面——约 160 字节,没有 #productTitle,没有添加到购物车的标记——而不是产品详细页面)。当前,对非美国市场请求的最佳解决方案是 Scrapeless 亚马逊抓取 API,它在服务器端处理市场路由。
具体来说,对于美国市场(.com),本指南的每一步都可以毫无地理标记地端到端工作。对于今天的多市场管道,请对非美国市场使用抓取 API,而对美国自定义流程工作使用抓取浏览器。
请参见 使用住宅代理抓取亚马逊 和 用于抓取亚马逊的代理 了解有关住宅代理模型的背景信息。
您将获得的回报
抓取浏览器会返回一个实时 DOM——提取模式是对调用者写入 eval 步骤的请求。对于从第 3 步的发现 → 提取模板进行的单个产品详细页面访问,当前可靠返回的字段如下所示:
json
// 模式是规范的;下面的字段值是最近捕获的示例,不是当前 B09B8V1LZ3 的静态快照。
{
"asin": "B09B8V1LZ3",
"title": "Echo Dot (第 5 代, 2022 年发布) | 大而清晰的声音...",
"brand": "亚马逊",
"final_price": "49.99",
"availability": "有货",
"rating": 4.7,
"review_count": 191146,
"prime_eligible": true,
"amazon_choice": true,
"bought_past_month": "过去一个月购买超过 10K",
"features": [
"任何房间的完美选择 – 清晰的声音...",
"语音控制您的音乐 – 播放歌曲..."
],
"image_url": "https://m.media-amazon.com/images/I/...",
"images_count": 9,
"delivery": "符合条件的订单免运费",
"url": "https://www.amazon.com/dp/B09B8V1LZ3",
"domain": "www.amazon.com"
}
关于此输出的一些诚实观察,值得在大规模运行之前了解:
- 详细规格表受模板制约。 位于
#productDetails_detailBullets_sections1/#detailBulletsWrapper_feature_div内的字段——product_dimensions、item_weight、model_number、manufacturer、upc、date_first_available、department——经常在亚马逊提供的 DOM 中缺失。不同的住宅 IP,或在 URL 后附加?language=en_US&m=ATVPDKIKX0DER,有时会显示完整模板。对于必须每次都存在的字段,Scrapeless 亚马逊抓取 API 会在服务器端解决此问题。 - 最佳销售排名(BSR)及其上级类别(
bs_rank、bs_category、root_bs_rank、root_bs_category、subcategory_rank)也属于同一详细规格块。相同的注意事项。 number_of_sellers需要二次导航到/gp/offer-listing/<ASIN>/,然后提取卖家行数。- **
top_review**来源于PDP评论转盘([data-hook="review-body"])。2026年后,通往/product-reviews/<ASIN>/的后备路径不再支持匿名访问(见第5步)——依赖PDP转盘获取每个ASIN的5到10条顶级评论。 - **
parent_asin**需要扫描变体切换区域(#twister/#variation_*);仅在发货变体的产品上存在。
搜索页面快照返回一个结构化的结果数组:
json
{
"query": "无线耳机",
"page": 1,
"results": [
{
"rank": 1, "asin": "B0XXXXXXXX", "title": "...",
"price": "$79.99", "rating": 4.5, "review_count": 12034,
"sponsored": false, "prime": true,
"url": "https://www.amazon.com/dp/B0XXXXXXXX"
}
]
}
需要完整的55字段架构吗?使用Amazon Scraper API
伴随产品——Scrapeless Amazon Scraper API——为任何ASIN返回预标准化的约55字段架构:parent_asin,buybox_prices{initial, final, unit, discount},每个祖类的完整BSR(root_bs_rank,bs_rank,subcategory_rank),number_of_sellers,seller_id,product_details[{type, values}],top_review,answered_questions,variations及其他——无需编写任何选择器或额外导航。
| Scrapeless Scraping Browser(本指南) | Scrapeless Amazon Scraper API | |
|---|---|---|
| 输出 | 实时DOM; 由您编写eval |
预标准化JSON,约55个字段 |
| 选择器维护 | 由调用者负责 | 由Scrapeless维护 |
| 最佳选择 | 登录视图、自定义字段、多步骤流程、区域限制页面、购物车自动化、逐变体导航 | 高容量产品智能、MAP监控、定价调整器、结构化分析 |
标准化(is_available,buybox_prices拆分,BSR祖类遍历) |
由调用者负责 | 服务器端处理 |
| 作为最佳选择…… | 需要 确切 的字段子集,或非PDP流程(购物车、稍后保存、愿望清单、订阅与保存) | 需要保证架构的典型Amazon产品对象 |
这两个产品共享相同的Scrapeless帐户和相同的住宅代理池。根据用例选择合适的工具;当数据管道需要两者时,它们可以无缝组成。
有关完整架构参考和示例负载,请参见抓取Amazon产品数据和Amazon解决方案中心。
关于搜索卡片输出还有一些诚实的观察,值得在大规模运行之前了解:
currency字段通常可以从市场域推导,但并不总是在页面上直接显示——应从会话的市场上下文中导出,而不是解析价格字符串。availability文本是本地化的;在下游使用之前,标准化为枚举(InStock,OutOfStock,BackOrdered,LimitedStock,Unavailable)。- 搜索结果卡片上的
rating和reviewCount字段在全新列表中偶尔缺失;将其视为可空。
结论
大规模抓取Amazon不再只是获取HTML——它需要可靠的渲染、区域感知的会话以及能够承受频繁DOM变化和反机器人压力的工作流程。Scrapeless Scraping Browser以生产就绪的方式将这些元素结合在一起,使收集稳定的产品数据、评论和搜索结果变得更加容易,而无需维护脆弱的本地浏览器。
对于需要大规模简单结构化Amazon数据的团队,Scrapeless Amazon Scraper API是更好的选择。对于需要交互、自定义导航或浏览器级控制的工作流程,Scrapeless Scraping Browser为您提供了在真实网页上构建所需的灵活性和韧性。实际上,这两个产品的组合最佳:使用API进行标准化提取,使用浏览器处理复杂流程和边缘情况。
准备好抓取并获利了吗?
加入我们充满活力的社区,申请免费计划并与其他创新者接触:
Scrapeless官方Discord社区
Scrapeless官方Telegram社区
常见问题
Q1:为何使用Scrapeless Scraping Browser而不是常规抓取器或本地Playwright设置?
Amazon页面高度动态,且经常受到反机器人系统的保护。Scrapeless Scraping Browser将真实浏览器渲染、住宅代理、指纹保护和会话控制集中在一个地方,使其在生产抓取时更为可靠。
Q2:抓取Amazon需要代理吗?
是的。亚马逊的边缘对数据中心IP范围进行了严格筛选,并且来自单个IP的请求模式会迅速被限制。通过--proxy-country、--proxy-state和--proxy-city接入的住宅代理,能够产生稳定的采集率。请参见用于抓取亚马逊的代理和使用住宅代理抓取亚马逊。
Q3: 这与亚马逊抓取API有何不同?
亚马逊抓取API返回结构化的JSON,适用于知名端点(ASIN查询、类目页面、搜索),而无需调用者渲染浏览器——非常适合希望拥有固定架构且无需提取逻辑的管道。当页面需要JavaScript渲染、导航序列重要(过滤器、下拉菜单、可展开部分)或需要跨分页请求的每会话cookie/指纹连续性时,Scrapeless抓取浏览器是合适的工具。
Q4: 支持哪些市场?
每个亚马逊市场域名都是一个普通的URL——.com、.co.uk、.de、.fr、.it、.es、.co.jp、.com.au、.in、.com.mx、.com.br,等等。将--proxy-country、--timezone和--languages与市场的来源区域对齐。在实践中(见第6步),美国市场在抓取浏览器上能够端到端地工作;非美国市场目前最好通过Scrapeless亚马逊抓取API进行处理,该API在服务器端处理市场路由。
Q5: 当亚马逊更改DOM时会发生什么?
发现→提取流是持久的解决方案:首先get html相关区域,识别稳定的锚点(ASIN数据属性、ARIA标签、基于语义角色的定位器),并用从当前DOM派生的选择器填充eval——而不是硬编码的类名。当页面重构时,发现步骤会自动适应。
在Scrapeless,我们仅访问公开可用的数据,并严格遵循适用的法律、法规和网站隐私政策。本博客中的内容仅供演示之用,不涉及任何非法或侵权活动。我们对使用本博客或第三方链接中的信息不做任何保证,并免除所有责任。在进行任何抓取活动之前,请咨询您的法律顾问,并审查目标网站的服务条款或获取必要的许可。



