python爬取豆瓣两千万图书简介信息：（三）异常处理

作者: 曹波波 | 来源:发表于2017-07-13 16:18 被阅读88次

python爬取豆瓣两千万图书简介信息：（三）异常处理
python爬取豆瓣两千万图书简介信息：（四）多进程并发
python爬取豆瓣两千万图书简介信息：（六）数据库操作类
python爬取豆瓣两千万图书简介信息：（五）数据库设计
python爬取豆瓣两千万图书简介信息：（七）代理IP
python爬取豆瓣两千万图书简介信息：（一）目标API分析
python爬取豆瓣两千万图书简介信息：（二）简单python请
python爬取豆瓣两千万图书简介信息：（八）总结
前500w本豆瓣图书评论人数最多的200本8分书目
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

异常处理

爬取数据是一个“大”活，尤其是面对豆瓣这种两千万级别的数据量，手动去一条一条撸的确很慢。稍微简单一想，用循环来爬取就是必然的选择。
于是就有了以下的代码：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,100):
        url = 'https://api.douban.com/v2/book/' + str(1000000+x)
        headers = {"User-Agent": "Mozilla/5.0"}
        #headers设置请求的headers，标明是哪种客户端访问的服务器，可以不填
        req = urllib2.Request(url, headers=headers)
        res = urllib2.urlopen(req, timeout=20)
        #设置请求，并设置请求超时时间为20s
        res = res.read()
        print res
        #通过read()解析response,并将结果转译为utf-8编码
    pass

loop_get_book()

运行结果如下：

屏幕快照 2017-07-11 下午2.17.26.png

100条数据全部已经录了下来，全放这里放不下，就截个图临时看看哈。
于是到这里似乎就万事大吉了，只需要将代码中的100改为20000000就可以等着将数据全部爬下来了。
但事实并非如此，改了之后的运行结果如下：

屏幕快照 2017-07-11 下午2.20.38.png

出现了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的异常。

简单学习一下，（翻翻书查查博客之类的），看到对urllib2
这种有专门的异常处理类：urllib2.URLError

于是，就添加上异常处理：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,20000000):
        try:
            url = 'https://api.douban.com/v2/book/' + str(1000000+x)
            headers = {"User-Agent": "Mozilla/5.0"}
            #headers设置请求的headers，标明是哪种客户端访问的服务器，可以不填
            req = urllib2.Request(url, headers=headers)
            res = urllib2.urlopen(req, timeout=20)
            #设置请求，并设置请求超时时间为20s
            res = res.read()
            print res
            #通过read()解析response,并将结果转译为utf-8编码
        except urllib2.URLError, e:
            print('book_id为'+str(x)+'的书目信息请求失败')

loop_get_book()

到这里，这段代码就能顺畅的执行到2kw以上。

在之前并没有系统的学习过python，刚好在这里就系统的总结一下python的异常处理。

什么是异常？
异常即是一个事件，该事件会在程序执行过程中发生，影响了程序的正常执行。
一般情况下，在Python无法正常处理程序时就会发生一个异常。
异常是Python对象，表示一个错误。
当Python脚本发生异常时我们需要捕获处理它，否则程序会终止执行。

异常处理
捕捉异常可以使用try/except语句。
try/except语句用来检测try语句块中的错误，从而让except语句捕获异常信息并处理。
如果你不想在异常发生时结束你的程序，只需在try里捕获它。
语法：
以下为简单的try....except...else的语法：

try:
<语句>        #运行别的代码
except <名字>：
<语句>        #如果在try部份引发了'name'异常
except <名字>，<数据>:
<语句>        #如果引发了'name'异常，获得附加的数据
else:
<语句>        #如果没有异常发生

try的工作原理是，当开始一个try语句后，python就在当前程序的上下文中作标记，这样当异常出现时就可以回到这里，try子句先执行，接下来会发生什么依赖于执行时是否出现异常。

如果当try后的语句执行时发生异常，python就跳回到try并执行第一个匹配该异常的except子句，异常处理完毕，控制流就通过整个try语句（除非在处理异常时又引发新的异常）。
如果在try后的语句里发生了异常，却没有匹配的except子句，异常将被递交到上层的try，或者到程序的最上层（这样将结束程序，并打印缺省的出错信息）。
如果在try子句执行时没有发生异常，python将执行else语句后的语句（如果有else的话），然后控制流通过整个try语句。

python中try的语法格式如下：

try:
    pass
except Exception, e:
    raise e

try:
    pass
except Exception, e:
    raise e
else:
    pass

try:
    pass
except Exception, e:
    raise e
finally:
    pass

try:
    pass
except Exception, e:
    raise
else:
    pass
finally:
    pass

异常的参数
一个异常可以带上参数，可作为输出的异常信息参数。
你可以通过except语句来捕获异常的参数，如下所示：

try:
    #正常的操作
   ......................
except ExceptionType, Argument:
    #你可以在这输出 Argument 的值...

变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。
元组通常包含错误字符串，错误数字，错误位置。

触发异常
我们可以使用raise语句自己触发异常
raise语法格式如下：

raise [Exception [, args [, traceback]]]

语句中Exception是异常的类型（例如，NameError）参数是一个异常参数值。该参数是可选的，如果不提供，异常的参数是"None"。
最后一个参数是可选的（在实践中很少使用），如果存在，是跟踪异常对象。
实例
一个异常可以是一个字符串，类或对象。 Python的内核提供的异常，大多数都是实例化的类，这是一个类的实例的参数。
定义一个异常非常简单，如下所示：

def functionName( level ):
    if level < 1:
        raise Exception("Invalid level!", level)
        # 触发异常后，后面的代码就不会再执行

用户自定义异常
通过创建一个新的异常类，程序可以命名它们自己的异常。异常应该是典型的继承自Exception类，通过直接或间接的方式。
以下为与RuntimeError相关的实例,实例中创建了一个类，基类为RuntimeError，用于在异常触发时输出更多的信息。
在try语句块中，用户自定义的异常后执行except块语句，变量 e 是用于创建Networkerror类的实例。

class Networkerror(RuntimeError):
    def __init__(self, arg):
        self.args = arg

在你定义以上类后，你可以触发该异常，如下所示：

try:
    raise Networkerror("Bad hostname")
except Networkerror,e:
    print e.args

异常的实现原理

类会跟随一张异常表（exception table），每一个try except都会在这个表里添加行记录，每一个记录都有4个信息（try except的开始地址，结束地址，异常的处理起始位，异常类名称）。
当代码在运行时抛出了异常时，首先拿着抛出位置到异常表中查找是否可以被catch（例如看位置是不是处于任何一栏中的开始和结束位置之间），如果可以则跑到异常处理的起始位置开始处理，如果没有找到则原地return，并且copy异常的引用给父调用方，接着看父调用的异常表。。。以此类推。

python爬取豆瓣两千万图书简介信息：（三）异常处理
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（四）多进程并发
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（六）数据库操作类
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（五）数据库设计
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（七）代理IP
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（一）目标API分析
python爬取豆瓣两千万图书简介信息：（一）目标API分析这是全部的调试过程，我已经整理成为笔记，这里分享给大...
python爬取豆瓣两千万图书简介信息：（二）简单python请
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
python爬取豆瓣两千万图书简介信息：（八）总结
这次用python爬取豆瓣两千万图书简介信息，大概用时两周时间。程序在工作之余断断续续的调试了一周多，最终稳定运行...
前500w本豆瓣图书评论人数最多的200本8分书目
这是之前用python爬取豆瓣图书简介信息，爬取到500w本图书筛查出的书目，看看书名和作者，还是挺符合豆瓣用户的...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...