urllib2库的使用

作者: carpe_diem_c | 来源:发表于2017-01-29 15:32 被阅读19次

    所谓的网页抓取,就是吧url地址中指定的网络资源从网络流中读取出来,保存在本地。
    其中,urlbil2库就可以实现。
    urlb2是py2自带的模块,不需下载,导入即可使用。
    (urllib2在py3中被改为了urllib.request)

    代码1:

    #coding=utf-8   
    import urllib2  #引入库  
    
    #urlopen方法是向指定的url地址发送请求,并且返回服务器响应的类文件对象
    response = urllib2.urlopen('http://www.baidu.com')  
    
    #类文件对象  支持  文件对象的操作方法,例如read()方法读取文件的全部内容,返回的是字符串。
    html = response.read()
    
    #打印字符串
    print html
    

    以上的代码返回的就是百度首页的HTML内容。
    通过右键‘查看源代码’看到的内容和返回的代码是一样的。

    Request

    在代码1中,urlopen()的参数只有一个url地址。
    但是为了完成更复杂的操作,比如增加HTTP报头,必须创建Request实例作为urlopen()的参数;而需要访问的url地址则作为Request实例的参数。
    代码2:

    #coding= utf-8
    import urllib2
    
    url = 'http://www.baidu.com'
    #url作为Request方法的参数,构造并返回一个Request对象
    request = urllib2.Request(url)
    
    #Request对象作为urlopen方法的参数,发送给服务器并接受响应
    response = urllib2.urlopen(request)
    
    html = response.read()
    
    print html
    

    上述代码只是把参数url放在了Reuqest中实现而已。
    注意: 新建的request实例,除了url参数之外还有设置另外两个参数:

    <ul><li>1.data(默认空):和url一起提交数据(比如要post的数据)。只有POST方式的时候使用这个参数。GET方法不用。</li>
    <li>2.headers(默认空):字典,包含需要发送的HTTP爆头的键值对</li></ul>

    User-Agent:

    urllib2默认的user-agent的头为Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/2.7)。所以为了不被发现就需要一个新的‘身份’作为User-Agent。
    添加Header信息
    在HTTP Headers中添加特定的Header,来构造一个完整的HTTP请求消息。
    可以通过Request.add_header()添加/修改一个特定的header,也可以用Request.get_header()来查看已有的headers。
    添加一个特定的header
    代码3:

    import urllib2
    
    url = "http://www.baidu.com"
    
    #IE 9.0 的 User-Agent
    header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
    request = urllib2.Request(url, headers = header)
    
    #通过调用Request.add_header() 添加/修改一个特定的header
    #keep-alive表示长链接
    request.add_header("Connection", "keep-alive")
    
    # 也可以通过调用Request.get_header()来查看header信息
    # request.get_header(header_name="Connection")
    
    response = urllib2.urlopen(request)
    
    print response.code     #可以查看响应状态码
    html = response.read()
    
    print html
    

    随机添加/修改一个user-agent:

    import urllib2
    import random
    url = "http://www.ittop.cn"
    
    ua_list = [
       "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
       "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
       "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
       "Mozilla/5.0 (Macintosh; Intel Mac OS... "
    ]
    
    user_agent = random.choice(ua_list)
    
    request = urllib2.Request(url)
    
    #也可以通过调用Request.add_header() 添加/修改一个特定的header
    request.add_header("User-Agent", user_agent)
    
    # 第一个字母大写,后面的全部小写
    request.get_header("User-agent")
    
    response = urllib2.urlopen(request)
    
    html = response.read()
    print html
    

    相关文章

      网友评论

        本文标题:urllib2库的使用

        本文链接:https://www.haomeiwen.com/subject/tljcittx.html