美文网首页
python爬取豆瓣两千万图书简介信息:(三)异常处理

python爬取豆瓣两千万图书简介信息:(三)异常处理

作者: 曹波波 | 来源:发表于2017-07-13 16:18 被阅读88次

    这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
    python爬取豆瓣两千万图书简介信息:(一)目标API分析
    python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
    python爬取豆瓣两千万图书简介信息:(三)异常处理
    python爬取豆瓣两千万图书简介信息:(四)多进程并发
    python爬取豆瓣两千万图书简介信息:(五)数据库设计
    python爬取豆瓣两千万图书简介信息:(六)数据库操作类
    python爬取豆瓣两千万图书简介信息:(七)代理IP
    python爬取豆瓣两千万图书简介信息:(八)总结

    异常处理

    爬取数据是一个“大”活,尤其是面对豆瓣这种两千万级别的数据量,手动去一条一条撸的确很慢。稍微简单一想,用循环来爬取就是必然的选择。
    于是就有了以下的代码:

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    
    import urllib2
    
    def loop_get_book():
        for x in xrange(1,100):
            url = 'https://api.douban.com/v2/book/' + str(1000000+x)
            headers = {"User-Agent": "Mozilla/5.0"}
            #headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
            req = urllib2.Request(url, headers=headers)
            res = urllib2.urlopen(req, timeout=20)
            #设置请求,并设置请求超时时间为20s
            res = res.read()
            print res
            #通过read()解析response,并将结果转译为utf-8编码
        pass
    
    loop_get_book()
    
    

    运行结果如下:

    屏幕快照 2017-07-11 下午2.17.26.png

    100条数据全部已经录了下来,全放这里放不下,就截个图临时看看哈。
    于是到这里似乎就万事大吉了,只需要将代码中的100改为20000000就可以等着将数据全部爬下来了。
    但事实并非如此,改了之后的运行结果如下:

    屏幕快照 2017-07-11 下午2.20.38.png

    出现了‘urllib2.HTTPError: HTTP Error 400: Bad Request
    ’的异常。

    简单学习一下,(翻翻书查查博客之类的),看到对urllib2
    这种有专门的异常处理类:urllib2.URLError

    于是,就添加上异常处理:

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    
    import urllib2
    
    def loop_get_book():
        for x in xrange(1,20000000):
            try:
                url = 'https://api.douban.com/v2/book/' + str(1000000+x)
                headers = {"User-Agent": "Mozilla/5.0"}
                #headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
                req = urllib2.Request(url, headers=headers)
                res = urllib2.urlopen(req, timeout=20)
                #设置请求,并设置请求超时时间为20s
                res = res.read()
                print res
                #通过read()解析response,并将结果转译为utf-8编码
            except urllib2.URLError, e:
                print('book_id为'+str(x)+'的书目信息请求失败')
    
    loop_get_book()
    

    到这里,这段代码就能顺畅的执行到2kw以上。

    在之前并没有系统的学习过python,刚好在这里就系统的总结一下python的异常处理。

    什么是异常?
    异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。
    一般情况下,在Python无法正常处理程序时就会发生一个异常。
    异常是Python对象,表示一个错误。
    当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。

    异常处理
    捕捉异常可以使用try/except语句。
    try/except语句用来检测try语句块中的错误,从而让except语句捕获异常信息并处理。
    如果你不想在异常发生时结束你的程序,只需在try里捕获它。
    语法:
    以下为简单的try....except...else的语法:

    try:
    <语句>        #运行别的代码
    except <名字>:
    <语句>        #如果在try部份引发了'name'异常
    except <名字>,<数据>:
    <语句>        #如果引发了'name'异常,获得附加的数据
    else:
    <语句>        #如果没有异常发生
    

    try的工作原理是,当开始一个try语句后,python就在当前程序的上下文中作标记,这样当异常出现时就可以回到这里,try子句先执行,接下来会发生什么依赖于执行时是否出现异常。

    • 如果当try后的语句执行时发生异常,python就跳回到try并执行第一个匹配该异常的except子句,异常处理完毕,控制流就通过整个try语句(除非在处理异常时又引发新的异常)。
    • 如果在try后的语句里发生了异常,却没有匹配的except子句,异常将被递交到上层的try,或者到程序的最上层(这样将结束程序,并打印缺省的出错信息)。
    • 如果在try子句执行时没有发生异常,python将执行else语句后的语句(如果有else的话),然后控制流通过整个try语句。

    python中try的语法格式如下:

    try:
        pass
    except Exception, e:
        raise e
    
    try:
        pass
    except Exception, e:
        raise e
    else:
        pass
    
    try:
        pass
    except Exception, e:
        raise e
    finally:
        pass
    
    try:
        pass
    except Exception, e:
        raise
    else:
        pass
    finally:
        pass
    

    异常的参数
    一个异常可以带上参数,可作为输出的异常信息参数。
    你可以通过except语句来捕获异常的参数,如下所示:

    try:
        #正常的操作
       ......................
    except ExceptionType, Argument:
        #你可以在这输出 Argument 的值...
    

    变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。
    元组通常包含错误字符串,错误数字,错误位置。

    触发异常
    我们可以使用raise语句自己触发异常
    raise语法格式如下:

    raise [Exception [, args [, traceback]]]
    

    语句中Exception是异常的类型(例如,NameError)参数是一个异常参数值。该参数是可选的,如果不提供,异常的参数是"None"。
    最后一个参数是可选的(在实践中很少使用),如果存在,是跟踪异常对象。
    实例
    一个异常可以是一个字符串,类或对象。 Python的内核提供的异常,大多数都是实例化的类,这是一个类的实例的参数。
    定义一个异常非常简单,如下所示:

    def functionName( level ):
        if level < 1:
            raise Exception("Invalid level!", level)
            # 触发异常后,后面的代码就不会再执行
    

    用户自定义异常
    通过创建一个新的异常类,程序可以命名它们自己的异常。异常应该是典型的继承自Exception类,通过直接或间接的方式。
    以下为与RuntimeError相关的实例,实例中创建了一个类,基类为RuntimeError,用于在异常触发时输出更多的信息。
    在try语句块中,用户自定义的异常后执行except块语句,变量 e 是用于创建Networkerror类的实例。

    class Networkerror(RuntimeError):
        def __init__(self, arg):
            self.args = arg
    

    在你定义以上类后,你可以触发该异常,如下所示:

    try:
        raise Networkerror("Bad hostname")
    except Networkerror,e:
        print e.args
    

    异常的实现原理

    • 类会跟随一张 异常表(exception table),每一个try except都会在这个表里添加行记录,每一个记录都有4个信息(try except的开始地址,结束地址,异常的处理起始位,异常类名称)。
    • 当代码在运行时抛出了异常时,首先拿着抛出位置到异常表中查找是否可以被catch(例如看位置是不是处于任何一栏中的开始和结束位置之间),如果可以则跑到异常处理的起始位置开始处理,如果没有找到则原地return,并且copy异常的引用给父调用方,接着看父调用的异常表。。。以此类推。

    相关文章

      网友评论

          本文标题:python爬取豆瓣两千万图书简介信息:(三)异常处理

          本文链接:https://www.haomeiwen.com/subject/koxmhxtx.html