美文网首页
爬虫的小坑总结

爬虫的小坑总结

作者: Leernh | 来源:发表于2019-07-21 03:04 被阅读0次


想要爬取京东商品的数据,但是get请求数据的时候发现必须要登录才行,百度发现要在请求中加入headers模拟用浏览器发送请求,于是继续查了一下什么是UserAgemt,在requests.get(url, hearders=UA)加上UA后就能正常访问了。

什么是User-Agent

User-Agent是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。用较为普通的一点来说,是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。UA字符串在每次浏览器 HTTP 请求时发送到服务器!

一些常用的User-Agent

1) Chrome

Win7:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1

2) Firefox

Win7:

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0

3) Safari

Win7:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

4) Opera

Win7:

Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50

5) IE

Win7+ie9:

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)

Win7+ie8:

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)

WinXP+ie8:

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)

WinXP+ie7:

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

WinXP+ie6:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

6) 傲游

傲游3.1.7在Win7+ie9,高速模式:

Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12

傲游3.1.7在Win7+ie9,IE内核兼容模式:

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)

7) 搜狗

搜狗3.0在Win7+ie9,IE内核兼容模式:

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)

搜狗3.0在Win7+ie9,高速模式:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0

8) 360

360浏览器3.0在Win7+ie9:

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)

9) QQ浏览器

QQ浏览器6.9(11079)在Win7+ie9,极速模式:

Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201

QQ浏览器6.9(11079)在Win7+ie9,IE内核兼容模式:

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201

10) 阿云浏览器

阿云浏览器1.3.0.1724 Beta(编译日期2011-12-05)在Win7+ie9:

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)

相关文章

  • 爬虫的小坑总结

    想要爬取京东商品的数据,但是get请求数据的时候发现必须要登录才行,百度发现要在请求中加入headers模拟用浏览...

  • 4. 爬虫必备利器、抓包工具的使用

    别错过机会,人生比你想象中的要短! 参考:App 爬虫神器!Mitmproxy 快速带你入坑! 爬虫抓包原理 爬虫...

  • 复杂的爬虫框架,到底怎么选择

    "你写爬虫的时候使用的是什么框架 ,选择这个框架的原因是什么",考官经常这么问. 今天小编为大家总结下爬虫、常见...

  • iOS 遇坑记录

    今天跟小琪吐槽,加请求头好坑的问题。小琪说,觉得坑是因为不懂,懂了就不会觉得坑了。我觉得小琪总结得挺好的。但是毕竟...

  • Python爬虫scrapy(二)

    今天带来scrapy的第二讲,讲道理这个爬虫框架确实不错,但是用起来很多地方好坑,需要大家自己总结了,接下来我们先...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • robolectric unit test 小坑

    robolectric unit test 小坑 记录一下自己走过的坑以及总结的经验教训: android stu...

  • 小小分布式爬虫从架构到实现(一)

    做了一年多的爬虫相关工作了,来总结总结工作吧。 爬虫,是这样开始的…… 首先,为啥要做这个爬虫呢?因为公司在做大数...

  • 【同行说技术】Python程序员小白变大神必读资料汇总(三)

    在文章《Python开发、调试、爬虫类工具大全》里面向大家总结了各种实用工具和爬虫技术,今天小编收集了5篇带有实例...

  • 小程序踩坑总结

    时隔这么久,又开始写总结了,主要是小程序真的好坑,o(╥﹏╥)o,以下是我踩到的坑总结,希望其他的开发者不要像我这...

网友评论

      本文标题:爬虫的小坑总结

      本文链接:https://www.haomeiwen.com/subject/ynnplctx.html