协程

作者: 奔跑的老少年 | 来源:发表于2018-08-03 11:09 被阅读0次

    协程是一种用户轻量级线程。协程拥有自己的寄存器上下文和栈,协程调度切换时寄存器上下文和栈保存到其它地方,在切回来的时候恢复先前保存的寄存器上下文和栈,因此协程能保留上一次调用时的状态,每次过程重入时进入上一次离开时所处逻辑流的位置。协程的好处:
    1、无需线程上下文切换的开销
    2、无需原子操作锁定及同步的开销
    3、方便切换控制流,简化编程模型
    4、高并发+高扩展+低成本:一个cpu支持上万的协程都不是问题,适合高并发处理
    缺点:
    1、无法利用多核资源,协程的本质是个单线程,它不能同时将单个cpu的多个核用上,协程需要和进程配合才能在多cpu上运行
    2、进行阻塞(blocking)操作(如IO)时会阻塞掉整个程序

    greenlet模块:

    from greenlet import greenlet
    def test1():
        print('test1-1')
        gr2.switch()
        print('test1-2')
        gr2.switch()
    
    def test2():
        print('test2-1')
        gr1.switch()
        print('test2-2')
    gr1 = greenlet(test1) #启动一个协程
    gr2 = greenlet(test2)
    gr1.switch()
    
    test1-1
    test2-1
    test1-2
    test2-2
    

    greenlet是手动切换线程上下文。greenlet(test1)启动一个协程后,gr1.switch()切换到test1执行,test1打印test1-1后切换到test2,test2打印test2-1后又切回test1,并记录到了上一次执行的位置,打印test1-2

    gevent模块:gevent模块封装了greenlet,实现自动切换:

    import gevent
    
    def foo():
        print('in foo')
        gevent.sleep(2)#触发切换
        print('in foo 2')
    
    def bar():
        print('in bar 1')
        gevent.sleep(1)
        print('in bar 2')
    
    def func3():
        print('in func3 1')
        gevent.sleep(0)
        print('in func3 2')
    
    gevent.joinall(
        [
            gevent.spawn(foo), #启动一个协程
            gevent.spawn(bar),
            gevent.spawn(func3)
        ]
    )
    
    in foo
    in bar 1
    in func3 1
    in func3 2
    in foo 2
    in bar 2
    

    启动三个协程,打印in foo后执行gevent.sleep(2),此时会切换至打印in bar 1,此时又遇切换,执行打印in func3 1和in func3 2,之后回到foo函数gevent.sleep(2)还未到达2秒,到达1秒后打印in bar 2,到达2秒后再打印in foo 2,总耗时2秒

    协程爬虫简单例子:

    from urllib import request
    import gevent
    from gevent import monkey
    import time
    
    # monkey.patch_all()#gevent检测不到urllib的IO操作,所以不会进行切换。monkey.patch_all()是给当前程序所有IO操作单独做上标记
    
    def fun(url):
        res = request.urlopen(url)
        data = res.read()
        f = open('url.html','wb')
        f.write(data)
        f.close()
        print("%d bytes recived from %s" % (len(data),url))
    
    
    urls = [ 'https://github.com/',
            'https://zz.253.com/v5.html#/yun/index'
             ]
    sync_all_time = time.time()
    for url in urls:
        fun(url)
    print('同步总耗时:',time.time()-sync_all_time)
    
    async_start_time = time.time()
    gevent.joinall(
        [
            gevent.spawn(fun,'https://github.com/'),
            gevent.spawn(fun,'https://zz.253.com/v5.html#/yun/index'),
            # gevent.spawn(fun,'https://www.jianshu.com/'),
        ]
    )
    print('异步总耗时:',time.time()-async_start_time)
    
    59864 bytes recived from https://github.com/
    1175 bytes recived from https://zz.253.com/v5.html#/yun/index
    同步总耗时: 2.9010000228881836
    59854 bytes recived from https://github.com/
    1175 bytes recived from https://zz.253.com/v5.html#/yun/index
    异步总耗时: 7.056999921798706
    

    gevent检测不到urllib的IO操作,不会进行切换,所以为串行。monkey.patch_all()是给当前程序所有IO操作单独做上标记,如此才并行。

    相关文章

      网友评论

          本文标题:协程

          本文链接:https://www.haomeiwen.com/subject/klzdvftx.html