美文网首页刘悦的技术博客
运筹帷幄决胜千里,Python3.10原生协程asyncio工业

运筹帷幄决胜千里,Python3.10原生协程asyncio工业

作者: 刘悦的技术博客 | 来源:发表于2022-08-08 17:29 被阅读0次

    我们一直都相信这样一种说法:协程是比多线程更高效的一种并发工作方式,它完全由程序本身所控制,也就是在用户态执行,协程避免了像线程切换那样产生的上下文切换,在性能方面得到了很大的提升。毫无疑问,这是颠扑不破的业界共识,是放之四海而皆准的真理。

    但事实上,协程远比大多数人想象中的复杂,正因为协程的“用户态”特性,任务调度权掌握在撰写协程任务的人手里,而仅仅依赖async和await关键字远远达不到“调度”的级别,有时候反而会拖累任务效率,使其在任务执行效率上还不及“系统态”的多线程和多进程,本次我们来探讨一下Python3原生协程任务的调度管理。

    Python3.10协程库async.io的基本操作

    事件循环(Eventloop)是 原生协程库asyncio 的核心,可以理解为总指挥。Eventloop实例提供了注册、取消和执行任务和回调的方法。

    Eventloop可以将一些异步方法绑定到事件循环上,事件循环会循环执行这些方法,但是和多线程一样,同时只能执行一个方法,因为协程也是单线程执行。当执行到某个方法时,如果它遇到了阻塞,事件循环会暂停它的执行去执行其他的方法,与此同时为这个方法注册一个回调事件,当某个方法从阻塞中恢复,下次轮询到它的时候将会继续执行,亦或者,当没有轮询到它,它提前从阻塞中恢复,也可以通过回调事件进行切换,如此往复,这就是事件循环的简单逻辑。

    而上面最核心的动作就是切换别的方法,怎么切换?用await关键字:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
      
    async def job2():  
        print('job2开始')  
      
      
    async def main():  
        await job1()  
        await job2()  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job1结束  
    job2开始
    

    是的,切则切了,可切的对吗?事实上这两个协程任务并没有达成“协作”,因为它们是同步执行的,所以并不是在方法内await了,就可以达成协程的工作方式,我们需要并发启动这两个协程任务:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
      
    async def job2():  
        print('job2开始')  
      
      
    async def main():  
        #await job1()  
        #await job2()  
        await asyncio.gather(job1(), job2())  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束
    

    如果没有asyncio.gather的参与,协程方法就是普通的同步方法,就算用async声明了异步也无济于事。而asyncio.gather的基础功能就是将协程任务并发执行,从而达成“协作”。

    但事实上,Python3.10也支持“同步写法”的协程方法:

    async def create_task():  
        task1 = asyncio.create_task(job1())  
        task2 = asyncio.create_task(job2())  
        await task1  
        await task2
    

    这里我们通过asyncio.create_task对job1和job2进行封装,返回的对象再通过await进行调用,由此两个单独的异步方法就都被绑定到同一个Eventloop了,这样虽然写法上同步,但其实是异步执行:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
      
    async def job2():  
        print('job2开始')  
      
      
    async def create_task():  
        task1 = asyncio.create_task(job1())  
        task2 = asyncio.create_task(job2())  
        await task1  
        await task2  
      
      
    async def main():  
        #await job1()  
        #await job2()  
        await asyncio.gather(job1(), job2())  
      
      
    if __name__ == '__main__':  
        asyncio.run(create_task())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束
    

    协程任务的上下游监控

    解决了并发执行的问题,现在假设每个异步任务都会返回一个操作结果:

    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"
    

    通过asyncio.gather方法,我们可以收集到任务执行结果:

    async def main():  
      
        res = await asyncio.gather(job1(), job2())  
        print(res)
    

    并发执行任务:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
      
    async def main():  
      
        res = await asyncio.gather(job1(), job2())  
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束  
    ['job1', 'job2']
    

    但任务结果仅仅也就是方法的返回值,除此之外,并没有其他有价值的信息,对协程任务的执行明细讳莫如深。

    现在我们换成asyncio.wait方法:

    async def main():  
      
        res = await asyncio.wait([job1(), job2()])  
        print(res)
    

    依然并发执行:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
      
    async def main():  
      
        res = await asyncio.wait([job1(), job2()])  
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束  
    ({<Task finished name='Task-2' coro=<job1() done, defined at /Users/liuyue/Downloads/upload/test/test_async.py:4> result='job1任务结果'>, <Task finished name='Task-3' coro=<job2() done, defined at /Users/liuyue/Downloads/upload/test/test_async.py:12> result='job2任务结果'>}, set())
    

    可以看出,asyncio.wait返回的是任务对象,里面存储了大部分的任务信息,包括执行状态。

    在默认情况下,asyncio.wait会等待全部任务完成 (return_when='ALL_COMPLETED'),它还支持 return_when='FIRST_COMPLETED'(第一个协程完成就返回)和 return_when='FIRST_EXCEPTION'(出现第一个异常就返回)。

    这就非常令人兴奋了,因为如果异步消费任务是发短信之类的需要统计达到率的任务,利用asyncio.wait特性,我们就可以第一时间记录任务完成或者异常的具体时间。

    协程任务守护

    假设由于某种原因,我们手动终止任务消费:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
      
    async def main():  
        task1 = asyncio.create_task(job1())  
        task2 = asyncio.create_task(job2())  
        task1.cancel()  
        res = await asyncio.gather(task1, task2)  
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统报错:

    File "/Users/liuyue/Downloads/upload/test/test_async.py", line 23, in main  
        res = await asyncio.gather(task1, task2)  
    asyncio.exceptions.CancelledError  
      
    
    

    这里job1被手动取消,但会影响job2的执行,这违背了协程“互相提携”的特性。

    事实上,asyncio.gather方法可以捕获协程任务的异常:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
      
    async def main():  
        task1 = asyncio.create_task(job1())  
        task2 = asyncio.create_task(job2())  
        task1.cancel()  
        res = await asyncio.gather(task1, task2,return_exceptions=True)  
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job2开始  
    [CancelledError(''), 'job2任务结果']
    

    可以看到job1没有被执行,并且异常替代了任务结果作为返回值。

    但如果协程任务启动之后,需要保证任务情况下都不会被取消,此时可以使用asyncio.shield方法守护协程任务:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
      
    async def main():  
        task1 = asyncio.shield(job1())  
        task2 = asyncio.create_task(job2())  
          
        res = await asyncio.gather(task1, task2,return_exceptions=True)  
      
        task1.cancel()  
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束  
    ['job1任务结果', 'job2任务结果']
    

    协程任务回调

    假设协程任务执行完毕之后,需要立刻进行回调操作,比如将任务结果推送到其他接口服务上:

    import asyncio  
      
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
    def callback(future):  
        print(f'回调任务: {future.result()}')  
      
      
      
    async def main():  
        task1 = asyncio.shield(job1())  
        task2 = asyncio.create_task(job2())  
      
        task1.add_done_callback(callback)  
          
        res = await asyncio.gather(task1, task2,return_exceptions=True)  
      
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    这里我们通过add_done_callback方法对job1指定了callback方法,当任务执行完以后,callback会被调用,系统返回:

    job1开始  
    job2开始  
    job1结束  
    回调任务: job1任务结果  
    ['job1任务结果', 'job2任务结果']
    

    与此同时,add_done_callback方法不仅可以获取协程任务返回值,它自己也支持参数参数传递:

    import asyncio  
    from functools import partial  
      
    async def job1():  
        print('job1开始')  
        await asyncio.sleep(1)  
        print('job1结束')  
      
        return "job1任务结果"  
      
      
    async def job2():  
        print('job2开始')  
      
        return "job2任务结果"  
      
      
    def callback(future,num):  
        print(f"回调参数{num}")  
        print(f'回调任务: {future.result()}')  
      
      
      
    async def main():  
        task1 = asyncio.shield(job1())  
        task2 = asyncio.create_task(job2())  
      
        task1.add_done_callback(partial(callback,num=1))  
          
        res = await asyncio.gather(task1, task2,return_exceptions=True)  
      
        print(res)  
      
      
    if __name__ == '__main__':  
        asyncio.run(main())
    

    系统返回:

    job1开始  
    job2开始  
    job1结束  
    回调参数1  
    回调任务: job1任务结果  
    ['job1任务结果', 'job2任务结果']
    

    结语

    成也用户态,败也用户态。所谓水能载舟亦能覆舟,协程消费任务的调度远比多线程的系统级调度要复杂,稍不留神就会造成业务上的“同步”阻塞,弄巧成拙,适得其反。这也解释了为什么相似场景中多线程的出场率要远远高于协程,就是因为多线程不需要考虑启动后的“切换”问题,无为而为,简单粗暴。

    相关文章

      网友评论

        本文标题:运筹帷幄决胜千里,Python3.10原生协程asyncio工业

        本文链接:https://www.haomeiwen.com/subject/zinwwrtx.html