如何在Python Requests中设置User Agent：开发者的逐步指南

Michael Lee

Expert Network Defense Engineer

22-Oct-2025

引言

在Python Requests中设置自定义用户代理对于控制您的HTTP请求被Web服务器感知的方式至关重要。本指南解释了设置和管理用户代理的明确方法。它帮助开发者避免被阻止，模拟浏览器，并有效地收集网络数据。

主要要点

设置用户代理控制服务器的感知。
Python Requests允许灵活的头部自定义。
使用正确的用户代理提高抓取成功率。
像Scrapeless这样的工具简化了用户代理管理。

用户代理的重要性

结论： 服务器依赖用户代理来确定客户端类型。
用户代理向服务器指明请求是来自浏览器、机器人还是移动设备。不正确的用户代理可能会触发阻止或返回简化内容。

案例示例：

Google通常为机器人和浏览器提供不同的HTML。
一些电子商务网站阻止未被识别的用户代理的请求。

参考：Mozilla开发者网络 (nofollow)

在Python Requests中设置用户代理的基本方法

结论： 自定义头部是最简单的方法。
Python Requests允许传递一个headers字典：

python Copy

import requests

url = 'https://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
response = requests.get(url, headers=headers)
print(response.status_code)

关键点

始终将User-Agent指定为字符串。
在抓取时避免空头或默认头。

使用会话保持持久的用户代理

结论： 会话在请求之间保持头部。

python Copy

import requests

session = requests.Session()
session.headers.update({'User-Agent': 'CustomBrowser/1.0'})
response1 = session.get('https://example.com/page1')
response2 = session.get('https://example.com/page2')

优势：

自动保持相同的用户代理。
减少代码重复。

轮换用户代理

结论： 轮换避免检测和阻止。

python Copy

import random
import requests

user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)',
    'Mozilla/5.0 (X11; Linux x86_64)'
]

headers = {'User-Agent': random.choice(user_agents)}
response = requests.get('https://example.com', headers=headers)

比较总结：

方法	优点	缺点
单一头部	简单，快速设置	不太隐蔽
会话头部	持久，代码更整洁	代码略长
轮换用户代理	避免阻止，更隐蔽	需要更多管理

参考：Scrapy文档 (nofollow)

设置用户代理时的常见错误

结论： 错误降低抓取成功率。

完全忘记头部。
复制过时的浏览器字符串。
对于高频请求使用相同的用户代理。

示例：

对现代网站发出的旧IE用户代理请求通常返回最少的HTML。

将用户代理与代理结合使用

结论： 代理在使用用户代理时增加匿名性。

使用住宅代理以提高成功率。
将轮换用户代理与代理轮换结合。

python Copy

proxies = {
    'http': 'http://123.123.123.123:8080',
    'https': 'https://123.123.123.123:8080',
}
response = requests.get('https://example.com', headers=headers, proxies=proxies)