美文网首页大牧夜话——爬虫篇
爬虫正传-江湖路远-0102-少侠师承何处

爬虫正传-江湖路远-0102-少侠师承何处

作者: 大牧莫邪 | 来源:发表于2018-05-13 23:45 被阅读0次

少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁
WHY?因为少侠不知江湖套路,爬虫程序在网络上直接裸奔,只要是个人都能抓包请求就能查到,不收拾你收拾谁?
为什么少侠就是这么点背,没有开始就出现了结束呢?这一切的一切,都是因为少侠身上一个特殊的身份标记:User-agent: Python-urllib/2.7

User-agent又是个什么东西呢?字面意思:用户代理
用户代理又是个什么东西呢?这事就说来话长了,这得从有了浏览器开始说起这个故事,浏览器作为一个当时流行的应用软件,在一开始的时候就有很多家门派研发,大家发现不同的浏览器兼容的数据展示风格不一样,于是浏览器厂商就互相协商设置了一个特殊的参数User-agent,用来表示自己浏览器的内核信息,方便让服务器返回自己的浏览器能正确识别的数据给用户展示,久而久之,User-agent就称为了浏览器请求特有的身份标记,就类似行走江湖的小少侠见面都要自报师承门派一样

那么少侠的爬虫程序,User-agent是什么呢?
抓包工具抓包,得到如下的请求描述信息:(抓包工具的使用请参考外传)

User-agent: Python-urllib/2.7

常见的各种浏览器的User-agent(其实可以在任意地方搜索一下得到结果)
但是兵马未动,粮草先行,我们先准备好自己需要的资源:


safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

safari 5.1 – Windows
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

IE 9.0
User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;

IE 8.0
User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)

IE 7.0
User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)

Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Opera 11.11 – MAC
User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11

Opera 11.11 – Windows
User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11

Chrome 17.0 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

傲游(Maxthon) User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)

腾讯TT
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)

世界之窗(The World) 2.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

世界之窗(The World) 3.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)

搜狗浏览器 1.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)

360浏览器 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)

Avant
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)

Green Browser
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

**移动设备端:**

safari [iOS](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPhone
User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari [ios](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPod Touch
User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari iOS 4.33 – iPad
User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

[Android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) N1
User-Agent: Mozilla/5.0 ([Linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; [android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android QQ浏览器 For android
User-Agent: MQQBrowser/26 Mozilla/5.0 ([linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android Opera Mobile
User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10

Android Pad Moto Xoom
User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13

BlackBerry
User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+

WebOS HP Touchpad
User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0

Nokia N97
User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124

Windows Phone Mango
User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)

UC无 User-Agent: UCWEB7.0.2.37/28/999

UC标准 User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999

UCOpenwave
User-Agent: Openwave/ UCWEB7.0.2.37/28/999

UC Opera
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999

通过上面User-agent的描述,我们可以看到不同的浏览器版本信息都是通过不同的User-agent直接定义的,只需要将指定的User-agent包含在我们爬虫程序的请求头中,爬虫向网站发起的请求,就被伪装成了浏览器请求


散养的少侠

那么,下面的问题,就是怎么将User-agent信息添加到我们自己的虫虫的请求头中呢?
python2.7/urllib2提供了一个请求对象类型urllib2.Request,可以很方便的进行请求中各种类型数据的操作,诸如请求头、请求参数等等都可以很方便的进行操作

接下来,给我们的爬虫,伪造一个请求头,让服务器不再当成一个爬虫屏蔽我们的访问,这里就要用到urllib2中的Request对象了
我们的代码工作目录:/home/damu/work_spider/spider_01/
目录下创建爬虫程序:demo02_request.py

# coding:utf-8 

from urllib2 import urlopen

from urllib2 import Request

# 定义目标url地址和请求头设置

url = “[http://www.sina.com.cn](http://www.sina.com.cn/)”

headers = {

    ‘User-agent’: ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0’

}

# 使用url地址和请求头构建一个请求对象

requset = Request(url, headers=headers)

# 向服务器发送请求,采集服务器返回数据

response = urlopen(request)

# 打印展示数据

print(response.read())

此时,初入江湖的少侠可是携带了门派令牌(User-agent),不再是散养的江湖散人任人欺负了,数据采集不会再因为身份信息敏感而被拒之门外了

小结:urllib2.Request是爬虫模块中操作的请求对象,通过请求对象可以完成对请求中各种数据配置的设置,如请求地址、请求头信息、请求参数、请求路径、请求方式等等,Python2内置爬虫模块本身提供的操作方式中,这个对象是最核心的对象之一

相关文章

  • 爬虫正传-江湖路远-0102-少侠师承何处

    少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁WHY?因为少侠不...

  • 爬虫正传-江湖路远-0100

    urllib2底层数据采集方式 1. 亚当和夏娃的故事 据传说,亚当是上帝创世第六天,根据自己的模样造出的第一个人...

  • 爬虫正传-江湖路远-0103-入乡随俗

    尽管已经可以行侠仗义,但是初入江湖的少侠依然少了很多江湖经验,完全不顾及别人的饭碗,疯狂的数据采集造成的压力引起了...

  • 爬虫正传-江湖路远-0104-狡兔三窟

    那是一个繁忙的午后:?:最近忙什么呢,服务器大佬??:别提了,之前收拾了几个不懂事的小游侠,还没有消停几天,压力又...

  • 少侠好走

    少侠好走 有人的地方便有江湖。少侠初...

  • 初始爬虫--少侠佩刀入江湖

    相传,那是一个刚刚出道的毛头小子小李(武功不高),因刚刚出入江湖,所以到处行侠仗义,不巧的是他所在的地盘有一个恶霸...

  • 终究向情爱低了头 剖了酒壶舀清泉 熔了佩剑打发簪 马儿从此不扬蹄 少侠归隐温柔乡 江湖远 江湖远 好梦短 好梦短 ...

  • 爬虫正传-江湖路远-0101-刀未佩妥,出门已是江湖

    1.1. 刀未佩妥,出门已是江湖——第一个爬虫程序 创建自己的爬虫工作目录,我个人工作目录位置: /home/da...

  • 无题

    江湖何处不府城,笑颜难得见真心。 欲避孤独远喧嚣,少聚但为留人情。

  • 江湖笑路

    一路江湖一路欢笑。人生就是这样,你以为江湖路远,却不知世人百般,人人都是江湖人;你不知江湖何处?早已经有人说过,有...

网友评论

    本文标题:爬虫正传-江湖路远-0102-少侠师承何处

    本文链接:https://www.haomeiwen.com/subject/nbbrdftx.html