IO模型

作者: 爱健身的兔子 | 来源:发表于2020-10-14 17:08 被阅读0次

    一、文件描述符

    1. 概述

    文件描述符(file descriptor)是内核为了高效管理已被打开的文件(Socket也是文件)所创建的索引,其是一个非负整数(通常是小整数),用于指代被打开的文件,所有执行I/O操作的系统调用都通过文件描述符。程序刚刚启动的时候,0是标准输入,1是标准输出,2是标准错误。标准文件描述符图如下:

    image

    文件描述与打开的文件对应模型如下图:

    image

    2. 文件描述限制

    虽然说系统内存有多少就可以打开多少的文件描述符,但是在实际实现过程中内核是会做相应的处理的,一般最大打开文件数会是系统内存的10%(以KB来计算)(称之为系统级限制)。与此同时,内核为了不让某一个进程消耗掉所有的文件资源,其也会对单个进程最大打开文件数做默认值处理(称之为用户级限制),默认值一般是1024。

    3. 文件描述符合打开文件之间的关系

    每一个文件描述符会与一个打开文件相对应,同时,不同的文件描述符也会指向同一个文件。相同的文件可以被不同的进程打开也可以在同一个进程中被多次打开。系统为每一个进程维护了一个文件描述符表,该表的值都是从0开始的,所以在不同的进程中你会看到相同的文件描述符,这种情况下相同文件描述符有可能指向同一个文件,也有可能指向不同的文件。下面是由内核维护的3个数据结构。

    1. 进程级的文件描述符表

    2. 系统级的打开文件描述符表

    3. 文件系统的i-node表

    进程级的描述符表的每一条目记录了单个文件描述符的相关信息。

    1. 控制文件描述符操作的一组标志。(目前,此类标志仅定义了一个,即close-on-exec标志)

    2. 对打开文件句柄的引用

    内核对所有打开的文件的文件维护有一个系统级的描述符表格(open file description table)。有时,也称之为打开文件表(open file table),并将表格中各条目称为打开文件句柄(open file handle)。一个打开文件句柄存储了与一个打开文件相关的全部信息,如下所示:

    1. 当前文件偏移量(调用read()和write()时更新,或使用lseek()直接修改)

    2. 打开文件时所使用的状态标识(即,open()的flags参数)

    3. 文件访问模式(如调用open()时所设置的只读模式、只写模式或读写模式)

    4. 与信号驱动相关的设置

    5. 对该文件i-node对象的引用

    6. 文件类型(例如:常规文件、套接字或FIFO)和访问权限

    7. 一个指针,指向该文件所持有的锁列表

    8. 文件的各种属性,包括文件大小以及与不同类型操作相关的时间戳

    下图展示了文件描述符、打开的文件句柄以及i-node之间的关系,图中,两个进程拥有诸多打开的文件描述符。

    image

    在进程A中,文件描述符1和30都指向了同一个打开的文件句柄(标号23)。这可能是通过调用dup()、dup2()、fcntl()或者对同一个文件多次调用了open()函数而形成的。

    进程A的文件描述符2和进程B的文件描述符2都指向了同一个打开的文件句柄(标号73)。这种情形可能是在调用fork()后出现的(即,进程A、B是父子进程关系),或者当某进程通过UNIX域套接字将一个打开的文件描述符传递给另一个进程时,也会发生。再者是不同的进程独自去调用open函数打开了同一个文件,此时进程内部的描述符正好分配到与其他进程打开该文件的描述符一样。

    此外,进程A的描述符0和进程B的描述符3分别指向不同的打开文件句柄,但这些句柄均指向i-node表的相同条目(1976),换言之,指向同一个文件。发生这种情况是因为每个进程各自对同一个文件发起了open()调用。同一个进程两次打开同一个文件,也会发生类似情况。

    二、IO模型

    下面介绍五种IO模型,分别是:阻塞IO、非阻塞IO、多路复用IO、信号驱动IO以及异步IO。

    1.阻塞IO模型

    当用户线程发出IO请求之后,内核会去查看数据是否就绪,如果没有就绪就会等待数据就绪,而用户线程就会处于阻塞状态,用户线程交出CPU。当数据就绪之后,内核会将数据拷贝到用户空间,并返回结果给用户线程,用户线程才解除block状态。

    典型的阻塞IO模型的例子为:

    data = socket.read();

    如果数据没有就绪,就会一直阻塞在read方法。

    image

    2.非阻塞IO模型

    当用户线程发起一个read操作后,并不需要等待,而是马上就得到了一个结果。如果结果是一个error时,它就知道数据还没有准备好,于是它可以再次发送read操作。一旦内核中的数据准备好了,并且又再次收到了用户线程的请求,那么它马上就将数据拷贝到了用户空间,然后返回。在非阻塞IO模型中,用户线程需要不断地询问内核数据是否就绪,也就说非阻塞IO不会交出CPU,而会一直占用CPU,导致CPU占用率非常高。

    典型的非阻塞IO模型一般如下:

    while(true){

    data = socket.read();

    if(data!= error){

    处理数据

    break;

    }

    }

    image

    3.多路复用IO模型

    多路复用IO模型是目前使用得比较多的模型。Java NIO实际上就是多路复用IO。在多路复用IO模型中,会有一个线程不断去轮询多个socket的状态,只有当socket真正有读写事件时,才真正调用实际的IO读写操作。因为在多路复用IO模型中,只需要使用一个线程就可以管理多个socket,并且只有在真正有socket读写事件进行时,才会使用IO资源,所以它大大减少了资源占用。

    多路复用IO为何比非阻塞IO模型的效率高是因为在非阻塞IO中,不断地询问socket状态时通过用户线程去进行的,而在多路复用IO中,轮询每个socket状态是内核在进行的,这个效率要比用户线程要高的多。

    :多路复用IO模型是通过轮询的方式来检测是否有事件到达,并且对到达的事件逐一进行响应。因此对于多路复用IO模型来说,一旦事件响应体很大,那么就会导致后续的事件迟迟得不到处理,并且会影响新的事件轮询。

    image

    4.信号驱动IO模型

    在信号驱动IO模型中,当用户线程发起一个IO请求操作,会给对应的socket注册一个信号函数,然后用户线程会继续执行,当内核数据就绪时会发送一个信号给用户线程,用户线程接收到信号之后,便在信号函数中调用IO读写操作来进行实际的IO请求操作。这个一般用于UDP中,对TCP套接口几乎是没用的,原因是该信号产生得过于频繁,并且该信号的出现并没有告诉我们发生了什么事情

    image

    5.异步IO模型

    异步IO模型才是最理想的IO模型,在异步IO模型中,当用户线程发起read操作之后,立刻就可以开始去做其它的事。而另一方面,从内核的角度,当它受到一个asynchronous read之后,它会立刻返回,说明read请求已经成功发起了,因此不会对用户线程产生任何block。然后,内核会等待数据准备完成,然后将数据拷贝到用户空间,当这一切都完成之后,内核会给用户线程发送一个信号,告诉它read操作完成了。也就说用户线程完全不需要关心实际的整个IO操作是如何进行的,只需要先发起一个请求,当接收内核返回的成功信号时表示IO操作已经完成,可以直接去使用数据了。

    也就说在异步IO模型中,IO操作的两个阶段都不会阻塞用户线程,这两个阶段都是由内核自动完成,然后发送一个信号告知用户线程操作已完成。用户线程中不需要再次调用IO函数进行具体的读写。这点是和信号驱动模型有所不同的,在信号驱动模型中,当用户线程接收到信号表示数据已经就绪,然后需要用户线程调用IO函数进行实际的读写操作;而在异步IO模型中,收到信号表示IO操作已经完成,不需要再在用户线程中调用iO函数进行实际的读写操作。

    ,异步IO是需要操作系统的底层支持,在Java 7中,提供了Asynchronous IO。简称AIO前面四种IO模型实际上都属于同步IO,只有最后一种是真正的异步IO,因为无论是多路复用IO还是信号驱动模型,IO操作的第2个阶段都会引起用户线程阻塞,也就是内核进行数据拷贝的过程都会让用户线程阻塞。

    image

    两种高性能IO设计模式

    1.经典IO设计模式

    在传统的网络服务设计模式中,有两种比较经典的模式:

    • 一种是多线程。

    • 一种是线程池。

    对于多线程模式,也就说来了client,服务器就会新建一个线程来处理该client的读写事件,如下图所示:

    image

    这种模式虽然处理起来简单方便,但是由于服务器为每个client的连接都采用一个线程去处理,使得资源占用非常大。因此,当连接数量达到上限时,再有用户请求连接,直接会导致资源瓶颈,严重的可能会直接导致服务器崩溃。

    因此,为了解决这种一个线程对应一个客户端模式带来的问题,提出了采用线程池的方式,也就说创建一个固定大小的线程池,来一个客户端,就从线程池取一个空闲线程来处理,当客户端处理完读写操作之后,就交出对线程的占用。因此这样就避免为每一个客户端都要创建线程带来的资源浪费,使得线程可以重用。

    但是线程池也有它的弊端,如果连接大多是长连接,因此可能会导致在一段时间内,线程池中的线程都被占用,那么当再有用户请求连接时,由于没有可用的空闲线程来处理,就会导致客户端连接失败,从而影响用户体验。因此,线程池比较适合大量的短连接应用。

    2.高性能IO设计模式

    由于传统设计模式的缺点,便出现了两种高性能IO设计模式:

    • Reactor。

    • Proactor。

    在Reactor模式中,会先对每个client注册感兴趣的事件,然后有专门线程去轮询每个client是否有事件发生,当有事件发生时,便将事件传递给另外的线程处理,便再转去继续轮询,如下图所示:

    image

    多路复用IO就是采用Reactor模式。注意:监听事件和处理事件的线程可以是相同的也可以是不同的,实际的IO操作也是用户线程完成的(与proactor的区别),可以通过多线程或者线程池的方式来处理事件。Java NIO使用的就是这种。

    在Proactor模式中,当检测到有事件发生时,会新起一个异步操作,然后交由内核线程去处理,当内核线程完成IO操作之后,发送一个通知告知操作已完成,可以得知,异步IO模型采用的就是Proactor模式。Java AIO使用的这种。

    每天进步一点点——Linux中的文件描述符与打开文件之间的关系_Cynric 的博客-CSDN博客

    五种IO模型详解_小范的博客-CSDN博客

    相关文章

      网友评论

          本文标题:IO模型

          本文链接:https://www.haomeiwen.com/subject/lhcvpktx.html