迭代器
迭代器协议:
对象需要提供next()方法,它要么返回迭代中的下一项,要么就引起一个StopIteration异常,以终止迭代。
可迭代对象:
实现了迭代器协议对象。list、tuple、dict都是Iterable(可迭代对象),但不是iteration(迭代器对象)。但可以使用内建函数iter(),把这些都变成iteration(迭代器对象)。
为什么在python中,文件还可以使用for循环进行遍历呢?这是因为,在python中,文件对象实现了迭代器协议,for循环并不知道它遍历的是一个文件对象,它只管使用迭代器协议访问对象即可。正是由于python的文件对象实现了迭代器协议,我们才得以使用如此方便的方式访问文件,如下所示:
>>>hasattr(open(__file__),'__iter__')
True
为什么list、dict、str等数据类型不是Iterator?
1.Python的Iterator对象表示的是一个数据流,虽然这个数据流看做是一个有序序列,但是元素的获得只能通过next(),因为Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。
2.而list、dict、str等数据类型,提供了对元素更加方便的操作,可以直接获取元素,提前知道序列的长度。
3.但是,iterator也有好处,它可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。
生成器
1.两种产生方式:
①生成器函数:
常规函数定义,但是,使用yield语句而不是return语句返回结果。yield语句一次返回一个结果,在每个结果中间,挂起函数的状态,以便下次从它离开的地方继续执行
defhello():
for i in range(3):
yield i*i
for i in hello():
print i
注意:在函数hello被调用的时候,返回的是生成器;只有在第一次next()的时候才会从头执行函数直到碰到yield,之后继续从上次yield这一句之后继续执行,直到不满足条件,没有值可以获得。
②生成器表达式:
类似于列表推导,只不过是把一对大括号[]变换为一对小括号()。但是,生成器表达式是按需产生一个生成器结果对象,要想拿到每一个元素,就需要循环遍历。
>>>gen = (i*i for i in range(3))
2.好处
①延迟操作。也就是在需要的时候才产生结果,不是立即产生结果。
例如:
print sum( [ i for i in range(10000000000) ])
print sum( i for i in range(10000000000) )
第一种方式很容易出现电脑卡死,因为会一次性将list中的内容加载到内存中
②简化代码,提高代码可读性
def hello(text):
result = []
if text:
result.append(0)
for index,letter in enumerate(text,1):
if letter ==' ':
result.append(index)
return result
def hello(text):
if text:
yield0
for index,letter in enumerate(text,1):
if letter ==' ':
yield index
注意:不使用生成器的时候,对于每次结果,我们首先看到的是result.append(index),其次,才是index。也就是说,我们每次看到的是一个列表的append操作,只是append的是我们想要的结果。使用生成器的时候,直接yield index,少了列表append操作的干扰,我们一眼就能够看出,代码是要返回index。
3.注意事项
生成器只能遍历一次,第二次遍历的时候返回空
4.深入理解
①与函数比较:生成器函数和常规函数几乎是一样的。它们都是使用def语句进行定义,差别在于,生成器使用yield语句返回一个值,而常规函数使用return语句返回一个值。
②与迭代器关系:会自动实现迭代器协议,以便应用到迭代背景中(如for循环,sum函数)。由于生成器自动实现了迭代器协议,所以,我们可以调用它的next方法,并且,在没有值可以返回的时候,生成器自动产生StopIteration异常。生成器是一种迭代器
③挂起状态:生成器使用yield语句返回一个值。yield语句挂起该生成器函数的状态,保留足够的信息,以便之后从它离开的地方继续执行
5.应用场景:
1.你不需要重复读这些值
2.你可能有海量的子节点,但是不希望将所有节点放入内存
网友评论