python生成器是怎样工作的

作者: treelake | 来源:发表于2016-09-26 16:20 被阅读416次

    第一部分

    • 在掌握python生成器之前,你需要理解普通的python函数是如何工作的。通常,当一个python函数调用一个子程序时,子程序保留控制权直到它返回,或者抛出一个异常。然后控制权被交还给调用者(父程序)。
    >>> def foo():
    ...     bar()
    ...
    >>> def bar():
    ...     pass
    

    python的标准解释器是由C写成的。自然美妙地,一个Python函数被调用时,由C函数PyEval_EvalFrameEx来执行这个Python函数。它接受python的一个栈帧对象,然后在帧的上下文中评估python的字节码。下面是foo的字节码:

    >>> import dis
    >>> dis.dis(foo)
      2           0 LOAD_GLOBAL              0 (bar)
                  3 CALL_FUNCTION            0 (0 positional, 0 keyword pair)
                  6 POP_TOP
                  7 LOAD_CONST               0 (None)
                 10 RETURN_VALUE
    

    foo函数加载bar到它的栈上然后调用它,然后从栈中弹出它的返回值,再在foo函数中加载返回值None到栈上,然后返回None
    PyEval_EvalFrameEx遇到一个CALL_FUNCTION字节码时,它创建一个新的python栈帧然后递归:这意味着它递归调用了PyEval_EvalFrameEx,传入新的栈帧对象,该对象被用来执行bar函数。
    关键的是,要明白Python的栈帧是在堆内存中分配的!Python的解释器是一个普通的C程序,所以它的栈帧都是常规的栈帧。但是它操纵的python栈帧都是在堆上的。这意味着Python的栈帧能够比它的函数调用活得更久。要交互式地看到这一点,在bar函数中保存当前栈帧即可:

    >>> import inspect
    >>> frame = None
    >>> def foo():
    ...     bar()
    ...
    >>> def bar():
    ...     global frame
    ...     frame = inspect.currentframe()
    ...
    >>> foo()
    >>> # The frame was executing the code for 'bar'.
    >>> frame.f_code.co_name
    'bar'
    >>> # Its back pointer refers to the frame for 'foo'.
    >>> caller_frame = frame.f_back
    >>> caller_frame.f_code.co_name
    'foo'
    
    函数调用

    第二部分

    • 现在暖场结束,舞台交给python的生成器,它利用了同样的建筑模块——代码对象和栈帧——来达到奇妙的效果。
      下面是一个生成器函数:
    >>> def gen_fn():
    ...     result = yield 1
    ...     print('result of yield: {}'.format(result))
    ...     result2 = yield 2
    ...     print('result of 2nd yield: {}'.format(result2))
    ...     return 'done'
    ...     
    

    当python编译gen_fn为字节码时,它看到yield语句并且知道gen_fn为一个生成器函数,而不是一个普通函数。它设置了一个标志来记住这一事实:

    >>> # The generator flag is bit position 5.
    >>> generator_bit = 1 << 5
    >>> bool(gen_fn.__code__.co_flags & generator_bit)
    True
    

    当你调用一个生成器函数,python看到生成器标志,然后它实际上并没有去执行函数而是创建了一个生成器对象:

    >>> gen = gen_fn()
    >>> type(gen)
    <class 'generator'>
    

    一个python生成器对象将一个栈帧,一些代码的引用即gen_fn函数体包裹在一起:

    >>> gen.gi_code.co_name
    'gen_fn'
    

    所有调用gen_fn函数得到的生成器对象都指向这同样的代码。但是每一个都有它自己的栈帧。这个栈帧并不在任何真正的栈上,它坐在堆内存中等待被使用:

    生成器

    该帧有一个“最后的指令”的指针,指向它最近一次执行的命令。在一开始,这个指针的值是-1,意味着生成器并没有开始:

    >>> gen.gi_frame.f_lasti
    -1
    

    当我们调用send方法时,生成器抵达它第一个yield,然后暂停。send的返回值是1。

    >>> gen.send(None)
    1
    

    现在生成器对象的指令指针的位置距离开始隔了3字节码长度,完成了编译好的56字节的python代码的一部分。

    >>> gen.gi_frame.f_lasti
    3
    >>> len(gen.gi_code.co_code)
    56
    

    该生成器能在任何时间被唤醒,被任何函数使用,因为它的栈帧并没有真正在栈上:它是在堆上的。它在调用层级中的位置并不固定,而且它不需要遵守先入后出的执行顺序(常规函数就需要)。它是解放的,自由得像空中漂浮的云朵。

    我们可以传入值"hello"到生成器中,然后它就成了yield表达式的值,然后生成器持续运行到它生成2:

    >>> gen.send('hello')
    result of yield: hello
    2
    

    它的栈帧现在拥有本地变量result

    >>> gen.gi_frame.f_locals
    {'result': 'hello'}
    

    其它用gen_fn 创建出的生成器将会拥有他们自己的栈帧和本地变量。
    当我们再次调用send函数时,该生成器从它第二个yield开始运行,执行完之后的代码,最后以抛出一个StopIteration异常结束:

    >>> gen.send('goodbye')
    result of 2nd yield: goodbye
    Traceback (most recent call last):
      File "<input>", line 1, in <module>
    StopIteration: done
    

    这个异常也是有值的,那就是生成器的返回值:字符串"done"

    附录:

    本文英文原文来自于 500 lines or less -- A Web Crawler With asyncio Coroutines中的How Python Generators Work一节,由于相对独立,单独出来便于参考。

    相关文章

      网友评论

      • 勤劳的小盛:人生苦短,我用Python。可惜中国的IT企业主流开发很少用Python。找工作还是java大法好呀。
        treelake:@精益阅读 确实比较尴尬

      本文标题:python生成器是怎样工作的

      本文链接:https://www.haomeiwen.com/subject/lgjqyttx.html