美文网首页
python爬取豆瓣两千万图书简介信息:(三)异常处理

python爬取豆瓣两千万图书简介信息:(三)异常处理

作者: 曹波波 | 来源:发表于2017-07-13 16:18 被阅读88次

这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结

异常处理

爬取数据是一个“大”活,尤其是面对豆瓣这种两千万级别的数据量,手动去一条一条撸的确很慢。稍微简单一想,用循环来爬取就是必然的选择。
于是就有了以下的代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,100):
        url = 'https://api.douban.com/v2/book/' + str(1000000+x)
        headers = {"User-Agent": "Mozilla/5.0"}
        #headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
        req = urllib2.Request(url, headers=headers)
        res = urllib2.urlopen(req, timeout=20)
        #设置请求,并设置请求超时时间为20s
        res = res.read()
        print res
        #通过read()解析response,并将结果转译为utf-8编码
    pass

loop_get_book()

运行结果如下:

屏幕快照 2017-07-11 下午2.17.26.png

100条数据全部已经录了下来,全放这里放不下,就截个图临时看看哈。
于是到这里似乎就万事大吉了,只需要将代码中的100改为20000000就可以等着将数据全部爬下来了。
但事实并非如此,改了之后的运行结果如下:

屏幕快照 2017-07-11 下午2.20.38.png

出现了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的异常。

简单学习一下,(翻翻书查查博客之类的),看到对urllib2
这种有专门的异常处理类:urllib2.URLError

于是,就添加上异常处理:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,20000000):
        try:
            url = 'https://api.douban.com/v2/book/' + str(1000000+x)
            headers = {"User-Agent": "Mozilla/5.0"}
            #headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
            req = urllib2.Request(url, headers=headers)
            res = urllib2.urlopen(req, timeout=20)
            #设置请求,并设置请求超时时间为20s
            res = res.read()
            print res
            #通过read()解析response,并将结果转译为utf-8编码
        except urllib2.URLError, e:
            print('book_id为'+str(x)+'的书目信息请求失败')

loop_get_book()

到这里,这段代码就能顺畅的执行到2kw以上。

在之前并没有系统的学习过python,刚好在这里就系统的总结一下python的异常处理。

什么是异常?
异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。
一般情况下,在Python无法正常处理程序时就会发生一个异常。
异常是Python对象,表示一个错误。
当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。

异常处理
捕捉异常可以使用try/except语句。
try/except语句用来检测try语句块中的错误,从而让except语句捕获异常信息并处理。
如果你不想在异常发生时结束你的程序,只需在try里捕获它。
语法:
以下为简单的try....except...else的语法:

try:
<语句>        #运行别的代码
except <名字>:
<语句>        #如果在try部份引发了'name'异常
except <名字>,<数据>:
<语句>        #如果引发了'name'异常,获得附加的数据
else:
<语句>        #如果没有异常发生

try的工作原理是,当开始一个try语句后,python就在当前程序的上下文中作标记,这样当异常出现时就可以回到这里,try子句先执行,接下来会发生什么依赖于执行时是否出现异常。

  • 如果当try后的语句执行时发生异常,python就跳回到try并执行第一个匹配该异常的except子句,异常处理完毕,控制流就通过整个try语句(除非在处理异常时又引发新的异常)。
  • 如果在try后的语句里发生了异常,却没有匹配的except子句,异常将被递交到上层的try,或者到程序的最上层(这样将结束程序,并打印缺省的出错信息)。
  • 如果在try子句执行时没有发生异常,python将执行else语句后的语句(如果有else的话),然后控制流通过整个try语句。

python中try的语法格式如下:

try:
    pass
except Exception, e:
    raise e

try:
    pass
except Exception, e:
    raise e
else:
    pass

try:
    pass
except Exception, e:
    raise e
finally:
    pass

try:
    pass
except Exception, e:
    raise
else:
    pass
finally:
    pass

异常的参数
一个异常可以带上参数,可作为输出的异常信息参数。
你可以通过except语句来捕获异常的参数,如下所示:

try:
    #正常的操作
   ......................
except ExceptionType, Argument:
    #你可以在这输出 Argument 的值...

变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。
元组通常包含错误字符串,错误数字,错误位置。

触发异常
我们可以使用raise语句自己触发异常
raise语法格式如下:

raise [Exception [, args [, traceback]]]

语句中Exception是异常的类型(例如,NameError)参数是一个异常参数值。该参数是可选的,如果不提供,异常的参数是"None"。
最后一个参数是可选的(在实践中很少使用),如果存在,是跟踪异常对象。
实例
一个异常可以是一个字符串,类或对象。 Python的内核提供的异常,大多数都是实例化的类,这是一个类的实例的参数。
定义一个异常非常简单,如下所示:

def functionName( level ):
    if level < 1:
        raise Exception("Invalid level!", level)
        # 触发异常后,后面的代码就不会再执行

用户自定义异常
通过创建一个新的异常类,程序可以命名它们自己的异常。异常应该是典型的继承自Exception类,通过直接或间接的方式。
以下为与RuntimeError相关的实例,实例中创建了一个类,基类为RuntimeError,用于在异常触发时输出更多的信息。
在try语句块中,用户自定义的异常后执行except块语句,变量 e 是用于创建Networkerror类的实例。

class Networkerror(RuntimeError):
    def __init__(self, arg):
        self.args = arg

在你定义以上类后,你可以触发该异常,如下所示:

try:
    raise Networkerror("Bad hostname")
except Networkerror,e:
    print e.args

异常的实现原理

  • 类会跟随一张 异常表(exception table),每一个try except都会在这个表里添加行记录,每一个记录都有4个信息(try except的开始地址,结束地址,异常的处理起始位,异常类名称)。
  • 当代码在运行时抛出了异常时,首先拿着抛出位置到异常表中查找是否可以被catch(例如看位置是不是处于任何一栏中的开始和结束位置之间),如果可以则跑到异常处理的起始位置开始处理,如果没有找到则原地return,并且copy异常的引用给父调用方,接着看父调用的异常表。。。以此类推。

相关文章

网友评论

      本文标题:python爬取豆瓣两千万图书简介信息:(三)异常处理

      本文链接:https://www.haomeiwen.com/subject/koxmhxtx.html