美文网首页大牧夜话——爬虫篇
爬虫正传-江湖路远-0102-少侠师承何处

爬虫正传-江湖路远-0102-少侠师承何处

作者: 大牧莫邪 | 来源:发表于2018-05-13 23:45 被阅读0次

    少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁
    WHY?因为少侠不知江湖套路,爬虫程序在网络上直接裸奔,只要是个人都能抓包请求就能查到,不收拾你收拾谁?
    为什么少侠就是这么点背,没有开始就出现了结束呢?这一切的一切,都是因为少侠身上一个特殊的身份标记:User-agent: Python-urllib/2.7

    User-agent又是个什么东西呢?字面意思:用户代理
    用户代理又是个什么东西呢?这事就说来话长了,这得从有了浏览器开始说起这个故事,浏览器作为一个当时流行的应用软件,在一开始的时候就有很多家门派研发,大家发现不同的浏览器兼容的数据展示风格不一样,于是浏览器厂商就互相协商设置了一个特殊的参数User-agent,用来表示自己浏览器的内核信息,方便让服务器返回自己的浏览器能正确识别的数据给用户展示,久而久之,User-agent就称为了浏览器请求特有的身份标记,就类似行走江湖的小少侠见面都要自报师承门派一样

    那么少侠的爬虫程序,User-agent是什么呢?
    抓包工具抓包,得到如下的请求描述信息:(抓包工具的使用请参考外传)

    User-agent: Python-urllib/2.7
    

    常见的各种浏览器的User-agent(其实可以在任意地方搜索一下得到结果)
    但是兵马未动,粮草先行,我们先准备好自己需要的资源:

    
    safari 5.1 – MAC
    User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
    
    safari 5.1 – Windows
    User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
    
    IE 9.0
    User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
    
    IE 8.0
    User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
    
    IE 7.0
    User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
    
    Firefox 4.0.1 – MAC
    User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
    
    Firefox 4.0.1 – Windows
    User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
    
    Opera 11.11 – MAC
    User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11
    
    Opera 11.11 – Windows
    User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
    
    Chrome 17.0 – MAC
    User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
    
    傲游(Maxthon) User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)
    
    腾讯TT
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)
    
    世界之窗(The World) 2.x
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
    
    世界之窗(The World) 3.x
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)
    
    搜狗浏览器 1.x
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
    
    360浏览器 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)
    
    Avant
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)
    
    Green Browser
    User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
    
    **移动设备端:**
    
    safari [iOS](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPhone
    User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
    
    safari [ios](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPod Touch
    User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
    
    safari iOS 4.33 – iPad
    User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
    
    [Android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) N1
    User-Agent: Mozilla/5.0 ([Linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; [android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
    
    Android QQ浏览器 For android
    User-Agent: MQQBrowser/26 Mozilla/5.0 ([linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
    
    Android Opera Mobile
    User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10
    
    Android Pad Moto Xoom
    User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13
    
    BlackBerry
    User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+
    
    WebOS HP Touchpad
    User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0
    
    Nokia N97
    User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124
    
    Windows Phone Mango
    User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)
    
    UC无 User-Agent: UCWEB7.0.2.37/28/999
    
    UC标准 User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999
    
    UCOpenwave
    User-Agent: Openwave/ UCWEB7.0.2.37/28/999
    
    UC Opera
    User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999
    
    

    通过上面User-agent的描述,我们可以看到不同的浏览器版本信息都是通过不同的User-agent直接定义的,只需要将指定的User-agent包含在我们爬虫程序的请求头中,爬虫向网站发起的请求,就被伪装成了浏览器请求


    散养的少侠

    那么,下面的问题,就是怎么将User-agent信息添加到我们自己的虫虫的请求头中呢?
    python2.7/urllib2提供了一个请求对象类型urllib2.Request,可以很方便的进行请求中各种类型数据的操作,诸如请求头、请求参数等等都可以很方便的进行操作

    接下来,给我们的爬虫,伪造一个请求头,让服务器不再当成一个爬虫屏蔽我们的访问,这里就要用到urllib2中的Request对象了
    我们的代码工作目录:/home/damu/work_spider/spider_01/
    目录下创建爬虫程序:demo02_request.py

    # coding:utf-8 
    
    from urllib2 import urlopen
    
    from urllib2 import Request
    
    # 定义目标url地址和请求头设置
    
    url = “[http://www.sina.com.cn](http://www.sina.com.cn/)”
    
    headers = {
    
        ‘User-agent’: ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0’
    
    }
    
    # 使用url地址和请求头构建一个请求对象
    
    requset = Request(url, headers=headers)
    
    # 向服务器发送请求,采集服务器返回数据
    
    response = urlopen(request)
    
    # 打印展示数据
    
    print(response.read())
    

    此时,初入江湖的少侠可是携带了门派令牌(User-agent),不再是散养的江湖散人任人欺负了,数据采集不会再因为身份信息敏感而被拒之门外了

    小结:urllib2.Request是爬虫模块中操作的请求对象,通过请求对象可以完成对请求中各种数据配置的设置,如请求地址、请求头信息、请求参数、请求路径、请求方式等等,Python2内置爬虫模块本身提供的操作方式中,这个对象是最核心的对象之一

    相关文章

      网友评论

        本文标题:爬虫正传-江湖路远-0102-少侠师承何处

        本文链接:https://www.haomeiwen.com/subject/nbbrdftx.html