美文网首页
使用协程写出高并发

使用协程写出高并发

作者: 小志Codings | 来源:发表于2021-08-03 13:19 被阅读0次

    什么是协程

    简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性。因此,这种由程序员自己写程序来管理的轻量级线程称作“用户空间线程”。

    协程较多线程的优点

    1、线程的控制权在操作系统上,而协程的控制权完全掌握在用户手中,因此利用协程可以减少程序运行时的上下文切换,有效提高程序的运行效率。

    2、建立线程时,系统默认分配给线程的栈大小是1M,而协程更轻量,只是接近1k。因此,可以在相同的内存中开启更多的协程。

    3、由于协程的本质不是多线程,而是单线程。因此,不需要多线程锁的机制,因为只有一个线程,也不存在同时写变量造成的冲突。在协程中控制共享资源不需要加锁,只需要判断状态即可。所以协程的执行效率比线程高很多,同时也有效避免了多线程中的竞争关系。

    协程的优点与缺点

    优点:协程适用于那些需要被阻塞,且大量并发的场景

    缺点:协程不适用于需要大量计算的场景(因为协程的本质是单线程来回切换),因此,是不可能使用单线程去计算。

    理解同步、异步、阻塞与非阻塞

    IO操作

    IO分为两个阶段(一旦拿到数据后就变成数据操作,不再是IO):

    1、数据准备阶段
    
    2、内核空间复制数据到用户进程缓冲区(用户空间)阶段
    

    在操作系统中,程序运行的空间分为内核空间与用户空间。应用程序都是运行在用户空间的,因此它们操作的数据也在用户空间。

    阻塞IO与非阻塞IO的区别在于第一步发起IO请求是否被阻塞,如果被阻塞直到完成,那么这就是传统的阻塞IO,如果不阻塞,那么就是非阻塞IO。

    阻塞与非阻塞是针对进程访问数据的时候,根据IO操作的就绪状态来采取的不同方式,说白了就是读取或写入操作方法的实现方式,阻塞方式下读取或写入函数,将一直在等待,而非阻塞方式下,读取或写入函数会立即返回一个状态值

    同步I/O与异步I/O

    image

    (手绘同步IO图)上图所展示的内容为同步I/O图。

    同步IO与异步IO的区别就在于第二个步骤是否阻塞,如果不阻塞,而是操作系统帮你完成IO操作再返回结果,那么就是异步IO。

    同步和异步是针对应用程序和内核交互而言的,同步指的是用户进程触发IO操作并等待或轮询的查看IO操作是否就绪;而异步则指的是用户进程触发IO操作以后便开始做自己的事情,而当IO操作已经完成的时候会得到IO完成的通知

    image

    上图所展示的是异步IO的模型图。

    阻塞IO与非阻塞IO

    阻塞指的是I/O操作需要彻底完成后才能返回用户空间。阻塞IO模型如下图所示:

    image

    非阻塞IO操作是指被调用后立即返回一个值,无需等待I/O操作彻底完成。非阻塞I/O模型,如下图所示:

    image

    同步与异步(线程间调用)

    同步与异步对于调用者与被调用者,它们是线程之间的关系,两个线程要么是同步的,要么是异步的。

    同步操作时,调用者需要等待被调用者返回结果,才会进行下一步操作。

    异步操作时,调用者不需要等待被调用者返回调用,即可进行下一步操作,被调用者通常依靠事件、回调等机制来通知调用者结果。

    阻塞与非阻塞(线程内调用)

    阻塞与非阻塞是对同一个线程来说的,在某个时刻,线程要么处于阻塞状态,要么处于非阻塞状态。

    阻塞和非阻塞关注的是程序在等待调用结果(消息和返回值)的状态。

    阻塞调用指的是得到返回的调用结果之前,当前线程会被挂起。调用线程只有在等到结果之后才继续执行。

    非阻塞调用指的是在没有得到调用的返回结果之前,该调用不会阻塞当前线程。

    基于http框架的httpx

    requests中实现的http请求是同步请求,但基于http请求IO阻塞的特性,非常适用协程来实现“异步”的http请求。

    httpx是一个继承了所有requests特性并且支持异步http请求的库。可以认为httpx是加强版的requests。

    安装方法

    pip install httpx
    

    实践

    我们可以分别使用httpx的同步与异步的方法对url发起批量的请求,然后进行耗时比较。

    同步http请求的具体代码,如下所示:

    import httpx
    import threading
    import time
    
    
    def sync_main(url, sign):
        response = httpx.get(url).status_code
        print(f'sync_main:{threading.current_thread()}: {sign} : {response}')
    
    sync_start = time.time()
    [sync_main(url='https://www.baidu.com', sign=i) for i in range(200)]
    sync_end = time.time()
    print(sync_end-sync_start)
    

    运行结果,如下所示:

    sync_main:<_MainThread(MainThread, started 12368)>: 195 + 200
    sync_main:<_MainThread(MainThread, started 12368)>: 196 + 200
    sync_main:<_MainThread(MainThread, started 12368)>: 197 + 200
    sync_main:<_MainThread(MainThread, started 12368)>: 198 + 200
    sync_main:<_MainThread(MainThread, started 12368)>: 199 + 200
    12.657010078430176
    

    一共耗时12秒左右。

    异步http请求的具体代码,如下所示:

    import asyncio
    import httpx
    import threading
    import time
    
    client = httpx.AsyncClient()
    
    async def async_main(url, sign):
        response = httpx.get(url).status_code
        print(f'async_main: {threading.current_thread()}: {sign}: {response}')
    
    
    loop = asyncio.get_event_loop()
    task = [async_main('http://www.baidu.com', sign=i) for i in range(200)]
    async_start = time.time()
    loop.run_until_complete(asyncio.wait(task))
    async_end = time.time()
    loop.close()
    print(async_end-async_start)
    

    运行结果,如下所示:

    async_main: <_MainThread(MainThread, started 10948)>: 82: 200
    async_main: <_MainThread(MainThread, started 10948)>: 144: 200
    async_main: <_MainThread(MainThread, started 10948)>: 21: 200
    async_main: <_MainThread(MainThread, started 10948)>: 83: 200
    async_main: <_MainThread(MainThread, started 10948)>: 145: 200
    10.82936143875122
    

    一共耗时10秒左右。

    同样是向百度这个网址发送200次的请求,异步http比同步http快了2秒左右,效率也是得到了提升。

    小结

    使用协程发送请求,顺序一定是乱的,因为程序在协程间不停的切换,但是主线程并没有切换,协程的本质就是单线程。

    本篇文章的主要内容是要理解同步、异步、阻塞与非阻塞的概念,在后面的文章中我会与爬虫结合。

    文章的每一个字,都是我用心敲出来的,只希望对得起每一位关注我的人。

    点个再看,让我知道,我的文章对你是真的有收获!

    相关文章

      网友评论

          本文标题:使用协程写出高并发

          本文链接:https://www.haomeiwen.com/subject/jkqevltx.html