自学Python爬虫:User-Agent(用户代理)

分享
手机游戏开发者 2024-10-7 17:02:45 64 0 来自 中国
User-Agent 是什么?
User Agent是用户代理,简称 UA,是一个特殊字符串头,使得服务器能够辨认客户使用的使用体系及版本、CPU 类型、欣赏器及版本、欣赏器渲染引擎、欣赏器语言、欣赏器插件等。
一些网站经常通过判定 UA 来给差别的使用体系、差别的欣赏器发送差别的页面,因此大概造成某些页面无法在某个欣赏器中正常显示,但通过伪装 UA 可以绕过检测。
网站通过辨认哀求头中 User-Agent 信息来判定是否是爬虫访问网站。假如是,网站起首对该 IP 举行预警,对其举行重点监控,当发现该 IP 凌驾规定时间内的访问次数, 将在一段时间内克制其再次访问网站。
常见的 User-Agent 哀求头,如下图所示:
1.png 使用上表中的欣赏器 UA,我们可以很方便的构建出 User-Agent。通过在线辨认工具(https://useragent.buyaocha.com/),可以查看本机的欣赏器版本以及 UA 信息。
还可以通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 哀求来查看哀求头信息,从而获取爬虫步伐的 UA。
import urllib.request#向网站发送get哀求response=urllib.request.urlopen('http://httpbin.org/get')html = response.read().decode()print(html)________________END______________
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-11-21 21:19, Processed in 0.153036 second(s), 35 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表