美文网首页Python爬虫笔记
python爬虫day-1(urllib库)

python爬虫day-1(urllib库)

作者: 南音木 | 来源:发表于2019-03-29 12:11 被阅读0次

    学习笔记,方便查阅,仅供参考,欢迎指点

    基本库的使用

    自己学习,直接上手写代码,没有提前看理论,想着遇到瓶颈了,再回头看理论,这样应该学的更快些。

    学习爬虫,最开始的操作便是模拟浏览器向服务器发出请求,Python提供了功能齐全的类库来帮助我们完成这些请求。
    最基础的HTTP库有 \color{coral}{urllib}\color{coral}{requests},httplib2,treq等。

    主要学习前面两个,后面一个库似乎更强大。

    urllib库

    urllib库,它是Python内置的HTTP请求库,所以不需要安装。

    库(urllib)——模块(request)——方法&函数(urlopen)——参数(data)

    个人理解:Python下面有各种不同作用的库,库下面实现功能模块,模块又包含了很多方法或者函数,方法需要传递不同的参数。

    urllib包含4个模块:

    request:最基本的HTTP请求模块,模拟发送请求。
    error:异常处理模块。
    parse:一个工具模块,提供了许多URL处理方法,拆分、解析、合并等。
    robotparser:主要是用来识别网站的robots.txt文件。然后判断哪些网站可爬,哪些不可爬,这个用的比较少。

    1发送请求-request模块:

    1.urlopen()

    \color{coral}{函数原型:}
    \color{coral}{urllib.request.urlopen(url,data=None, [timeout,]*,}
    \color{coral}{cafile=None,capath=None,cadefault=False,context=None)}

    • 爬取网站网页:
    import  urllib.request
    
    response =urllib.request.urlopen('http://www.destinystar.cn')
    #输出网页源代码
    print(response.read().decode('utf-8'))
    #利用type()输出响应的类型
    print(type(response))
    

    输出结果:<class 'http.client.HTTPResponse'>

    代码二:

    import urllib.request
    response=urllib.request.urlopen('https://flowingdata.com')
    print(response.status)
    print(response.getheaders())
    print(response.getheader('Server'))
    

    参数:

    data可选参数

    import urllib.parse
    import urllib.request
    data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8')
    response=urllib.request.urlopen('http://httpbin.org/post',data=data)
    print(response.read())
    

    timeout参数
    timeout 参数用于设置超时时间,单位为秒,意思就是如果请求超 了设置的这个时间,还没有得到响应就会抛出异常如果不指定该参数,就会使用全局默认时间。

    import urllib.request
    response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.5)
    print(response.read())
    

    可以通过设置这个超时时间来控制一个网页如果长时间未响应,就跳过它的抓取。

    import socket
    import urllib.request
    import urllib.error
    try:
        response=urllib.request.urlopen('http://httpbin.org/get',timeout=1)
            print(response.status)
    except urllib.error.URLError as e:
        if isinstance(e.reason,socket.timeout):
            print('TIME OUT')
    

    其他参数:
    context 、cafile、capath 参数

    相关文章

      网友评论

        本文标题:python爬虫day-1(urllib库)

        本文链接:https://www.haomeiwen.com/subject/tvpqbqtx.html