文件系统与IO(1)

作者: DayDayUpppppp | 来源:发表于2019-03-31 16:22 被阅读0次

文件系统与IO(1)
缓存IO与直接IO
软件架构设计-操作系统
常见MYSQL调优策略
JDK1.6入坑了，JDK1.7新特性编译异常
从零开始学习Hbuilder(三)
linux GPIO
IO优化
系统学习 Java IO (三)----File
Netty-基础篇(1)-网络IO，同步IO&异步IO，阻塞IO

以前上课的时候，学习操作系统的时候，关于文件系统和IO的这一部分就没有听得懂。好像那个时候在谈恋爱，逃~ 。后来，每次遇到这种的关于这类问题的时候，也是迷迷糊糊。google搜一个api手册，发现原理不是很明白，依然可以写代码。于是，这事就一直被拖着。研究生都快毕业了，本科的核心课程欠的债还没补上。

这周末，天朗气清，打算把欠的债补一补。

从应用层谈起

先从read/wrtie函数说起。

根据是否利用标准库缓存，分为缓冲IO和非缓冲IO。
根据是否利用操作系统的页缓存，分为直接IO和间接IO。
根据应用程序是否阻塞自身运行，分为阻塞 IO和非阻塞IO。
根据是否等待响应结果，分为 I/O 分为同步和异步 IO。

缓冲IO和非缓冲IO
这个区别是在于调用write和read的api是调用的是标准库的库函数，还是调用的操作系统层面的api。

用Unbuffered I/O函数每次读写都要进内核，调一个系统调用比调一个用户空间的函数要慢很多，所以在用户空间开辟I/O缓冲区还是必要的，用C标准I/O库函数就比较方便，省去了自己管理I/O缓冲区的麻烦。

用C标准I/O库函数要时刻注意I/O缓冲区和实际文件有可能不一致，在必要时需调用fflush(3)。
直接IO和间接IO
- 直接 I/O，是指跳过操作系统的页缓存，直接跟文件系统交互来访问文件。
- 非直接 I/O 正好相反，文件读写时，先要经过系统的页缓存，然后再由内核或额外的系统调用，真正写入磁盘。
想要实现直接 I/O，需要你在系统调用中，指定 O_DIRECT 标志。如果没有设置过，默认的是非直接 I/O。

间接IO-->操作系统页缓存-->文件系统；

直接IO-->文件系统；

不过要注意，直接 I/O、非直接 I/O，本质上还是和文件系统交互。如果是在数据库等场景中，你还会看到，跳过文件系统读写磁盘的情况，也就是我们通常所说的裸 I/O。

操作系统页缓存是个啥？todo
阻塞 IO和非阻塞IO

所谓阻塞 I/O，是指应用程序执行 I/O 操作后，如果没有获得响应，就会阻塞当前线程，自然就不能执行其他任务。

所谓非阻塞 I/O，是指应用程序执行 I/O 操作后，不会阻塞当前的线程，可以继续执行其他的任务，随后再通过轮询或者事件通知的形式，获取调用的结果。

比方说，访问管道或者网络套接字时，设置 O_NONBLOCK 标志，就表示用非阻塞方式访问；而如果不做任何设置，默认的就是阻塞访问。
I/O 分为同步和异步 IO
所谓同步 I/O，是指应用程序执行 I/O 操作后，要一直等到整个 I/O 完成后，才能获得 I/O 响应。

所谓异步 I/O，是指应用程序执行 I/O 操作后，不用等待完成和完成后的响应，而是继续执行就可以。等到这次 I/O 完成后，响应会用事件通知的方式，告诉应用程序。

举个例子，在操作文件时，如果你设置了 O_SYNC 或者 O_DSYNC 标志，就代表同步 I/O。如果设置了 O_DSYNC，就要等文件数据写入磁盘后，才能返回；而 O_SYNC，则是在 O_DSYNC 基础上，要求文件元数据也要写入磁盘后，才能返回。

再比如，在访问管道或者网络套接字时，设置了 O_ASYNC 选项后，相应的 I/O 就是异步 I/O。这样，内核会再通过 SIGIO 或者 SIGPOLL，来通知进程文件是否可读写。

从操作系统的层面谈起

Linux 在各种文件系统实现上，又抽象了一层虚拟文件系统 VFS，它定义了一组，所有文件系统都支持的，数据结构和标准接口。这样，对应用程序来说，只需要跟 VFS 提供的统一接口交互，而不需要关注文件系统的具体实现。

VFS 内部又通过目录项、索引节点、逻辑块以及超级块等数据结构，来管理文件。

目录项，目录项是一个内存缓存，记录了文件的名字，以及文件与其他目录项之间的目录关系。
逻辑块，是由连续磁盘扇区构成的最小读写单元，用来存储文件数据。
超级块，用来记录文件系统整体的状态，如索引节点和逻辑块的使用情况等。
超级块、索引节点和逻辑块，都是存储在磁盘中的持久化数据。

这种图很好啊

仔细分析之前，想问几个问题：

两个进程打开一个相同的文件，这两个进程是拥有同一份文件打开表吗？如果会的话，那么两个进程追加写的使用，写的偏移可以共享吗？

答：
不会。如上图所示，每个进程都有一张单独的文件打开表。
一个100G的文件和100个1G的文件，在磁盘上面，谁更加占用空间？

答：
100个小文件，会有100个inode，inode是存在磁盘上面的，所以，会占据空间。
一个文件对应一个inode吗？创建软硬链接，会影响inode的数量吗？

答：
todo

在回到刚才上面的那张图，每个进程在PCB（Process Control Block）中都保存着一份文件描述符表，文件描述符就是这个表的索引，每个表项都有一个指向已打开文件的指针。

在file结构体中维护File Status Flag（file结构体的成员f_flags）和当前读写位置（file结构体的成员f_pos）。在上图中，进程1和进程2都打开同一文件，但是对应不同的file结构体，因此可以有不同的File Status Flag和读写位置。

file结构体中比较重要的成员还有f_count，表示引用计数（Reference Count），后面我们会讲到，dup、fork等系统调用会导致多个文件描述符指向同一个file结构体，例如有fd1和fd2都引用同一个file结构体，那么它的引用计数就是2，当close(fd1)时并不会释放file结构体，而只是把引用计数减到1，如果再close(fd2)，引用计数就会减到0同时释放file结构体，这才真的关闭了文件。

每个file结构体都指向一个file_operations结构体，这个结构体的成员都是函数指针，指向实现各种文件操作的内核函数。比如在用户程序中read一个文件描述符，read通过系统调用进入内核，然后找到这个文件描述符所指向的file结构体，找到file结构体所指向的file_operations结构体，调用它的read成员所指向的内核函数以完成用户请求。在用户程序中调用lseek、read、write、ioctl、open等函数，最终都由内核调用file_operations的各成员所指向的内核函数完成用户请求。file_operations结构体中的release成员用于完成用户程序的close请求，之所以叫release而不叫close是因为它不一定真的关闭文件，而是减少引用计数，只有引用计数减到0才关闭文件。对于同一个文件系统上打开的常规文件来说，read、write等文件操作的步骤和方法应该是一样的，调用的函数应该是相同的，所以图中的三个打开文件的file结构体指向同一个file_operations结构体。如果打开一个字符设备文件，那么它的read、write操作肯定和常规文件不一样，不是读写磁盘的数据块而是读写硬件设备，所以file结构体应该指向不同的file_operations结构体，其中的各种文件操作函数由该设备的驱动程序实现。

每个file结构体都有一个指向dentry结构体的指针，“dentry”是directory entry（目录项）的缩写。我们传给open、stat等函数的参数的是一个路径，例如/home/akaedu/a，需要根据路径找到文件的inode。为了减少读盘次数，内核缓存了目录的树状结构，称为dentry cache，其中每个节点是一个dentry结构体，只要沿着路径各部分的dentry搜索即可，从根目录/找到home目录，然后找到akaedu目录，然后找到文件a。dentry cache只保存最近访问过的目录项，如果要找的目录项在cache中没有，就要从磁盘读到内存中。

每个dentry结构体都有一个指针指向inode结构体。inode结构体保存着从磁盘inode读上来的信息。在上图的例子中，有两个dentry，分别表示/home/akaedu/a和/home/akaedu/b，它们都指向同一个inode，说明这两个文件互为硬链接。inode结构体中保存着从磁盘分区的inode读上来信息，例如所有者、文件大小、文件类型和权限位等。每个inode结构体都有一个指向inode_operations结构体的指针，后者也是一组函数指针指向一些完成文件目录操作的内核函数。和file_operations不同，inode_operations所指向的不是针对某一个文件进行操作的函数，而是影响文件和目录布局的函数，例如添加删除文件和目录、跟踪符号链接等等，属于同一文件系统的各inode结构体可以指向同一个inode_operations结构体。

inode结构体有一个指向super_block结构体的指针。super_block结构体保存着从磁盘分区的超级块读上来的信息，例如文件系统类型、块大小等。super_block结构体的s_root成员是一个指向dentry的指针，表示这个文件系统的根目录被mount到哪里，在上图的例子中这个分区被mount到/home目录下。

file、dentry、inode、super_block这几个结构体组成了VFS的核心概念。对于ext2文件系统来说，在磁盘存储布局上也有inode和超级块的概念，所以很容易和VFS中的概念建立对应关系。而另外一些文件系统格式来自非UNIX系统（例如Windows的FAT32、NTFS），可能没有inode或超级块这样的概念，但为了能mount到Linux系统，也只好在驱动程序中硬凑一下，在Linux下看FAT32和NTFS分区会发现权限位是错的，所有文件都是rwxrwxrwx，因为它们本来就没有inode和权限位的概念，这是硬凑出来的。

image.png

从底层谈起

机械磁盘的最小读写单位是扇区，一般大小为 512 字节。
固态磁盘的最小读写单位是页，通常大小是 4KB、8KB。

在上一节中，我也提到过，如果每次都读写 512 字节这么小的单位的话，效率很低。所以，文件系统会把连续的扇区或页，组成逻辑块，然后以逻辑块作为最小单元来管理数据。常见的逻辑块的大小是 4KB，也就是说，连续 8 个扇区，或者单独的一个页，都可以组成一个逻辑块。

下图是一个磁盘分区格式化成ext2文件系统后的存储布局。

image.png

文件系统中存储的最小单位是块（Block），一个块究竟多大是在格式化时确定的，例如mke2fs的-b选项可以设定块大小为1024、2048或4096字节。而上图中启动块（Boot Block）的大小是确定的，就是1KB，启动块是由PC标准规定的，用来存储磁盘分区信息和启动信息，任何文件系统都不能使用启动块。启动块之后才是ext2文件系统的开始，ext2文件系统将整个分区划成若干个同样大小的块组（Block Group），每个块组都由以下部分组成。

todo ： https://www.kancloud.cn/wizardforcel/linux-c-book/134956

参考

倪鹏飞 linux性能优化
apue
linux 一站式学习

文件系统与IO(1)
以前上课的时候，学习操作系统的时候，关于文件系统和IO的这一部分就没有听得懂。好像那个时候在谈恋爱，逃~ 。后来，...
缓存IO与直接IO
文件系统IO分为DirectIO和BufferIO,其中BufferIO也叫Normal IO。 1. 缓存IO ...
软件架构设计-操作系统
操作系统直接IO与缓冲IO 缓冲io又称作标准I/O,大多数文件系统的默认IO操作都是缓冲IO。在linux的缓...
常见MYSQL调优策略
调优层次：硬件层、磁盘IO、文件系统层、硬件层磁盘IO 文件系统层内核参数优化 MYSQL参数优化建议
JDK1.6入坑了，JDK1.7新特性编译异常
1、访问文件系统与之前的JDK中通过Java.io.File访问文件的方式不同，JDK7将通过java.nio....
从零开始学习Hbuilder(三)
1. IO模块管理本地文件系统用于对文件系统的目录浏览、文件的读取、文件的写入等操作 1.1 resolveLo...
linux GPIO
GPIO（文件IO方式） gpio_operation 通过/sys/文件接口操作IO端口 GPIO到文件系统的映...
IO优化
整个IO操作由应用程序，文件系统和磁盘组成。 1:文件损坏的原因应用程序中的IO操作不是原子操作，文件的跨进程写...
系统学习 Java IO (三)----File
目录：系统学习 Java IO---- 目录，概览 Java IO API 中的 File 类可以访问基础文件系统...
Netty-基础篇(1)-网络IO，同步IO&异步IO，阻塞IO
目录： 1、阻塞IO(Block IO)与非阻塞IO(Non-Block IO)1.1、阻塞IO(Block IO...