这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结
异常处理
爬取数据是一个“大”活,尤其是面对豆瓣这种两千万级别的数据量,手动去一条一条撸的确很慢。稍微简单一想,用循环来爬取就是必然的选择。
于是就有了以下的代码:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
def loop_get_book():
for x in xrange(1,100):
url = 'https://api.douban.com/v2/book/' + str(1000000+x)
headers = {"User-Agent": "Mozilla/5.0"}
#headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
req = urllib2.Request(url, headers=headers)
res = urllib2.urlopen(req, timeout=20)
#设置请求,并设置请求超时时间为20s
res = res.read()
print res
#通过read()解析response,并将结果转译为utf-8编码
pass
loop_get_book()
运行结果如下:
屏幕快照 2017-07-11 下午2.17.26.png100条数据全部已经录了下来,全放这里放不下,就截个图临时看看哈。
于是到这里似乎就万事大吉了,只需要将代码中的100改为20000000就可以等着将数据全部爬下来了。
但事实并非如此,改了之后的运行结果如下:
出现了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的异常。
简单学习一下,(翻翻书查查博客之类的),看到对urllib2
这种有专门的异常处理类:urllib2.URLError
于是,就添加上异常处理:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
def loop_get_book():
for x in xrange(1,20000000):
try:
url = 'https://api.douban.com/v2/book/' + str(1000000+x)
headers = {"User-Agent": "Mozilla/5.0"}
#headers设置请求的headers,标明是哪种客户端访问的服务器,可以不填
req = urllib2.Request(url, headers=headers)
res = urllib2.urlopen(req, timeout=20)
#设置请求,并设置请求超时时间为20s
res = res.read()
print res
#通过read()解析response,并将结果转译为utf-8编码
except urllib2.URLError, e:
print('book_id为'+str(x)+'的书目信息请求失败')
loop_get_book()
到这里,这段代码就能顺畅的执行到2kw以上。
在之前并没有系统的学习过python,刚好在这里就系统的总结一下python的异常处理。
什么是异常?
异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。
一般情况下,在Python无法正常处理程序时就会发生一个异常。
异常是Python对象,表示一个错误。
当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。
异常处理
捕捉异常可以使用try/except语句。
try/except语句用来检测try语句块中的错误,从而让except语句捕获异常信息并处理。
如果你不想在异常发生时结束你的程序,只需在try里捕获它。
语法:
以下为简单的try....except...else的语法:
try:
<语句> #运行别的代码
except <名字>:
<语句> #如果在try部份引发了'name'异常
except <名字>,<数据>:
<语句> #如果引发了'name'异常,获得附加的数据
else:
<语句> #如果没有异常发生
try的工作原理是,当开始一个try语句后,python就在当前程序的上下文中作标记,这样当异常出现时就可以回到这里,try子句先执行,接下来会发生什么依赖于执行时是否出现异常。
- 如果当try后的语句执行时发生异常,python就跳回到try并执行第一个匹配该异常的except子句,异常处理完毕,控制流就通过整个try语句(除非在处理异常时又引发新的异常)。
- 如果在try后的语句里发生了异常,却没有匹配的except子句,异常将被递交到上层的try,或者到程序的最上层(这样将结束程序,并打印缺省的出错信息)。
- 如果在try子句执行时没有发生异常,python将执行else语句后的语句(如果有else的话),然后控制流通过整个try语句。
python中try的语法格式如下:
try:
pass
except Exception, e:
raise e
try:
pass
except Exception, e:
raise e
else:
pass
try:
pass
except Exception, e:
raise e
finally:
pass
try:
pass
except Exception, e:
raise
else:
pass
finally:
pass
异常的参数
一个异常可以带上参数,可作为输出的异常信息参数。
你可以通过except语句来捕获异常的参数,如下所示:
try:
#正常的操作
......................
except ExceptionType, Argument:
#你可以在这输出 Argument 的值...
变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。
元组通常包含错误字符串,错误数字,错误位置。
触发异常
我们可以使用raise语句自己触发异常
raise语法格式如下:
raise [Exception [, args [, traceback]]]
语句中Exception是异常的类型(例如,NameError)参数是一个异常参数值。该参数是可选的,如果不提供,异常的参数是"None"。
最后一个参数是可选的(在实践中很少使用),如果存在,是跟踪异常对象。
实例
一个异常可以是一个字符串,类或对象。 Python的内核提供的异常,大多数都是实例化的类,这是一个类的实例的参数。
定义一个异常非常简单,如下所示:
def functionName( level ):
if level < 1:
raise Exception("Invalid level!", level)
# 触发异常后,后面的代码就不会再执行
用户自定义异常
通过创建一个新的异常类,程序可以命名它们自己的异常。异常应该是典型的继承自Exception类,通过直接或间接的方式。
以下为与RuntimeError相关的实例,实例中创建了一个类,基类为RuntimeError,用于在异常触发时输出更多的信息。
在try语句块中,用户自定义的异常后执行except块语句,变量 e 是用于创建Networkerror类的实例。
class Networkerror(RuntimeError):
def __init__(self, arg):
self.args = arg
在你定义以上类后,你可以触发该异常,如下所示:
try:
raise Networkerror("Bad hostname")
except Networkerror,e:
print e.args
异常的实现原理
- 类会跟随一张 异常表(exception table),每一个try except都会在这个表里添加行记录,每一个记录都有4个信息(try except的开始地址,结束地址,异常的处理起始位,异常类名称)。
- 当代码在运行时抛出了异常时,首先拿着抛出位置到异常表中查找是否可以被catch(例如看位置是不是处于任何一栏中的开始和结束位置之间),如果可以则跑到异常处理的起始位置开始处理,如果没有找到则原地return,并且copy异常的引用给父调用方,接着看父调用的异常表。。。以此类推。
网友评论