MMAP总结笔记

作者: 小猪儿粑粑 | 来源:发表于2018-12-24 17:26 被阅读10次

MMAP总结笔记
mmap
【转】linux库函数mmap()原理
内存映射
Linux 共享内存函数
NIO中FileChannel和MappedByteBuffer
Android mmap学习笔记
2020-03-17 想了解文件内存映射mmap的过来看看啊
linux手册翻译——mmap(2)
mmap和MMKV

内核空间与用户空间

1.现代计算机都有两种以上的运行模式（普通模式、特权模式），linux系统只有两层：高优先级模式（特权模式），低优先级模式（普通模式）。linux系统在高优先级模式中运行系统内核代码以及与硬件密切相关的代码。低优先级运行营运程序与硬件无关部分。应用程序不能直接操控硬件或者调用内核函数，需借助一系列接口函数申请让系统调用相关代码在内核空间运行，获取代码运行权限。

2.应用程序崩溃不会造成内核崩溃，拿windows举例来说，QQ崩溃掉不会造成程序死机。每个应用程序或者进程都会有自己特定的地址、私有数据空间，程序之间一般不会相互影响，例如QQ崩溃不会造成微信的崩溃。空间的隔离极大地提高了系统运行的稳定性。

3.每一个系统进程都拥有自己私有的地址空间和数据，用户空间造成的进程错误会被局部化，而不会影响到内核或者其他进程。

4.当用户进程需要完成在特权模式下才能完成的某些工作时，通过linux向上提供的系统调用接口进入特权模式，然后执行调用所提供的有限功能

5.linux系统中每个进程占有4G空间（虚拟空间，并不一定真实占用）

空间分布如下：

用户空间： 0~(3G-1) 普通的应用程序代码运行在此部分空间中

内核空间： 3G~(4G-1) 内核代码段，其中驱动就是运行在此部分空间中

6.交流关系以open()文件打开函数为例

上层应用在用户空间执行到 open() API函数时，会触发系统软中断，系统调用系统调用函数 sys_open()系统调用函数，在内核空间执行open代码，这样用户空间的open函数内部代码就取得了在内核空间运行的权限，可以做一些比较牛比较核心的事情。

应用层API函数还有很多，大约有250个左右，涵盖范围包括文件操作、进程控制、网络操作等等。调用原理大致相同。

*用户态切换到内核态的3种方式

a. 系统调用

这是用户态进程主动要求切换到内核态的一种方式，用户态进程通过系统调用申请使用操作系统提供的服务程序完成工作，比如fork()实际上就是执行了一个创建新进程的系统调用。而系统调用的机制其核心还是使用了操作系统为用户特别开放的一个中断来实现，例如Linux的int 80h中断。

b. 异常

当CPU在执行运行在用户态下的程序时，发生了某些事先不可知的异常，这时会触发由当前运行进程切换到处理此异常的内核相关程序中，也就转到了内核态，比如缺页异常。

c. 外围设备的中断

当外围设备完成用户请求的操作后，会向CPU发出相应的中断信号，这时CPU会暂停执行下一条即将要执行的指令转而去执行与中断信号对应的处理程序，如果先前执行的指令是用户态下的程序，那么这个转换的过程自然也就发生了由用户态到内核态的切换。比如硬盘读写操作完成，系统会切换到硬盘读写的中断处理程序中执行后续操作等。

这3种方式是系统在运行时由用户态转到内核态的最主要方式，其中系统调用可以认为是用户进程主动发起的，异常和外围设备中断则是被动的。

程序中断与查询与DMA方式

1.程序中断通常简称中断，是指CPU在正常运行程序的过程中，由于预选安排或发生了各种随机的内部或外部事件，使CPU中断正在运行的程序，而转到为相应的服务程序去处理，这个过程称为程序中断。

2.主程序只是在设备A，B，C数据准备就绪时，才去处理A，B ，C，进行数据交换。在速度较慢的外围设备准备自己的数据时，CPU照常执行自己的主程序

在这个意义上说，CPU和外围设备的一些操作是并行地进行的，因而同串行进行的程序查询方式相比，计算机系统的效率是大大提高了。

3.当CPU执行完—条现行指令时，如果外设向CPU发出中断请求、那么CPU在满足响应条件的情况下，将发出中断响应信号，与此同时关闭中断(“中断屏蔽”触发器置“1”)，表示CPU不再受理另外—个设备的中断。这时、CPU将寻找中断请求源是哪个设备。并保存CPU自己的程序计数器(Pc)的内容．然后，它将转移到处理该中断源的中断服务程序．CPU在保存现场信息，设备(如文换数据)以后．将恢复现场信息．在这些动作完成以后，开放中断(“中断屏蔽”触发器置‘o”)，并返网到原来被中断的主程序的下一条指令。

4.轮询(Polling)I／O方式或程序控制I／O方式，是让CPU以一定的周期按次序查询每一个外设，看它是否有数据输入或输出的要求，若有，则进行相应的输入／输出服务；若无，或I／O处理完毕柏，CPU就接着查询下一个外设。

所需硬件：外设接口提供状态端口、数据端口

软件机制：应用程序必须定时查询各个接口的状态端口，判断是否需要输入、输出数据，如果需要，则通过数据端口进行数据操作。

特点：CPU通过执行指令主动对外部设备进行查询，外部设备处于被动地位。

(1)DMA（DIRECT MEMORY ACCESS）即直接存储器存取，是指外部设备不通过CPU而直接与系统内存交换数据的接口技术。要把外设的数据读入内存或把内存的数据传送到外设，一般都要通过CPU控制完成，如CPU程序查询或中断方式。利用中断进行数据传送，可以大大提高CPU的利用率。

(2)中断传送是由CPU通过中断服务程序来传送，每次要保护断点，保护现场需要多条指令，每条指令要有取指和执行时间。为了充分利用CPU的高速性能和实时操作的要求，一般中断服务程序要求是尽量的简短，所以当要实现大量数据交换的情况，如从磁盘调入程序或图形数据，如果采用中断传送方式，必然会引起频繁中断的情况，需要执行很多与数据传送无关的中断指令，所以会大大降低系统的执行效率，无法提高数据传送速率。

(3)查询方式：主要用于CPU不太忙且传送速度不高的情况下。无条件传送方式作为查询方式的一个特例，主要用于对简单I/O设备的控制或CPU明确知道外设所处状态的情况下。

(4)中断方式：主要用于CPU的任务比较忙的情况下，尤其适合实时控制和紧急事件的处理

(5)DMA方式（直接存储器存取方式）：主要用于高速外设进行大批量数据传送的场合,DMA在外设与内存间直接进行数据交换，而不通过CPU，这样数据传送的速度就取决于存储器和外设的工作速度。

6.程序查询方式是主机与外设间进行信息交换的最简单方式。输入输出完全通过CPU执行程序来完成。而程序中断方式无需等待查询，外设在做好输入输出准备时，向主机发中断请求，主机接到请求后就暂时中止原来执行的程序，转去执行中断服务程序对外部请求进行处理

7.DMA ——> MMAP

那我们可能会说：DMA为什么不直接将磁盘上的数据读入到用户缓冲区呢？一方面是内核缓冲区作为一个中间缓冲区。用来“适配”用户缓冲区的“任意大小”和每次读磁盘块的固定大小。另一方面则是，用户缓冲区位于用户态空间，而DMA读取数据这种操作涉及到底层的硬件，硬件一般是不能直接访问用户态空间的（OS的原因）

①对文件的操作不需要再发read 或者 write 系统调用了---The user process sees the file data asmemory, so there is no need to issue read() or write() system calls.

②当用户进程访问“内存映射文件”地址时，自动产生缺页错误，然后由底层的OS负责将磁盘上的数据送到内存。关于页式存储管理，可参考：内存分配与内存管理的一些理解

普通IO的瓶颈

1.用户态到内核态的切换开销

2.两次数据拷贝造成读写效率下降

4.磁盘操作代价

虚拟内存

1.虚拟内存，虚拟内存是一种内存管理技术，它会使程序自己认为自己拥有一块很大且连续的内存，然而，这个程序在内存中不是连续的，并且有些还会在磁盘上，在需要时进行数据交换

2.虚拟存储器系统把虚拟存储器分割成大小固定的块，这一块一块的存储器中的内容我们称为虚拟页[虚拟页不是真实存在的，而是逻辑上的]，同样的道理，我们把物理存储器分割成物理页（内存中）

3.拥有虚拟页地址和物理页地址信息的页表，页表就是一个存放页表条目（Page Table Entry，PTE）的数组，里面存放了若干个页表条目

4.页表条目是由一个有效位和一个n位地址字段组成，有效位表明了该虚拟页当前是否被缓存到内存中

5.物理页、虚拟页和页表之间的一个关系，虚拟页是虚拟存储系统把一个程序的虚拟地址空间划分了若干个虚拟页，（注意，这个虚拟页不是真正存在的东西），虚拟页有三种情况，一种是未分配的，不占用内存空间，第二种是未缓存的，也就是以存储在磁盘上的形式存在，还有一种是缓存的，也就是以存储在内存中的形式存在

6.页表条目其实就是一个虚拟页的描述，它描述了虚拟页是否被缓存在内存中（有效位），以及虚拟页的存储位置（未分配的为null，缓存了的指向内存中物理页的地址，未缓存的指向磁盘中虚拟页的位置）

7.在页面命中时，CPU硬件执行的步骤为：

第一步：处理器生成一个虚拟地址（VA），并把它传送给MMU

第二步：MMU生成页表条目的地址（PTEA），请求内存中的页表，让它给自己返回一个页表条目（PTE）

第三步：MMU构造物理地址（PA），然后把这这个物理地址传给内存（这时候是真实的物理地址），请求物理内存中的数据

第四步：内存返回所请求的数据给处理器

8.虚拟内存技术的核心就是利用了局部性原理，把所要运行的进程中的数据不全部加载到内存中执行，而是加载一部分，当CPU在请求页表时，发现页表中的页表条目中的有效位为0但是被虚拟存储系统分配了的虚拟页时，就会把这个虚拟页从磁盘中调度到内存中（往往磁盘中的数据不常用，而在内存中的物理页的数据是频繁使用的数据），这样一来，我们就实现了多个进程同时加载到内存中并且还占用不是很多的内存的效果了

内存映射MMAP

mmap定义为：Linux通过将一个虚拟内存区域与一个磁盘上的对象(object)关联起来，以初始化这个虚拟内存区域的内容，这个过程称为内存映射(memory mapping)

（三）mmap和常规文件操作的区别

对linux文件系统不了解的朋友，请参阅我之前写的博文《从内核文件系统看文件读写过程》，我们首先简单的回顾一下常规文件系统操作（调用read/fread等类函数）中，函数的调用过程：

1、进程发起读文件请求。

2、内核通过查找进程文件符表，定位到内核已打开文件集上的文件信息，从而找到此文件的inode。

3、inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在，则直接返回这片文件页的内容。

4、如果不存在，则通过inode定位到文件磁盘地址，将数据从磁盘复制到页缓存。之后再次发起读页面过程，进而将页缓存中的数据发给用户进程。

总结来说，常规文件操作为了提高读写效率和保护磁盘，使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中，由于页缓存处在内核空间，不能被用户进程直接寻址，所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样，通过了两次数据拷贝过程，才能完成进程对文件内容的获取任务。写操作也是一样，待写入的buffer在内核空间不能直接访问，必须要先拷贝至内核空间对应的主存，再写回磁盘中（延迟写回），也是需要两次数据拷贝。

而使用mmap操作文件中，创建新的虚拟内存区域和建立文件磁盘地址和虚拟内存区域映射这两步，没有任何文件拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程，可以通过已经建立好的映射关系，只使用一次数据拷贝，就从磁盘中将数据传入内存的用户空间中，供进程使用。

总而言之，常规文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件，只需要从磁盘到用户主存的一次数据拷贝过程。说白了，mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。

（四）mmap优点总结

由上文讨论可知，mmap优点共有一下几点：

1、对文件的读取操作跨过了页缓存，减少了数据的拷贝次数，用内存读写取代I/O读写，提高了文件读取效率。

2、实现了用户空间和内核空间的高效交互方式。两空间的各自修改操作可以直接反映在映射的区域内，从而被对方空间及时捕捉。

3、提供进程间共享内存及相互通信的方式。不管是父子进程还是无亲缘关系的进程，都可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对映射区域的改动，达到进程间通信和进程间共享的目的。

同时，如果进程A和进程B都映射了区域C，当A第一次读取C时通过缺页从磁盘复制文件页到内存中；但当B再读C的相同页面时，虽然也会产生缺页异常，但是不再需要从磁盘中复制文件过来，而可直接使用已经保存在内存中的文件数据。

4、可用于实现高效的大规模数据传输。内存空间不足，是制约大数据操作的一个方面，解决方案往往是借助硬盘空间协助操作，补充内存的不足。但是进一步会造成大量的文件I/O操作，极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说，但凡是需要用磁盘空间代替内存的时候，mmap都可以发挥其功效。

文件系统跟磁盘是完全不同的事物。磁盘按段存储数据，每段512字节。它是硬件设备，对保存的文件语义一无所知。它们只是提供了一定数量的可以保存数据的插槽。从这方面来说，一个磁盘的段与内存分页类似。它们都有统一的大小并且是个可寻址的大数组。

另一方面，文件系统是更高层抽象。文件系统是安排和翻译保存磁盘（或其它可随机访问，面向块的设备）数据的一种特殊方法。你写的代码几乎总是与文件系统交互，而不与磁盘直接交互。文件系统定义了文件名、路径、文件、文件属性等抽象。

一个文件系统组织（在硬盘中）了一系列均匀大小的数据块。有些块保存元信息，如空闲块的映射、目录、索引等。其它块包含实际的文件数据。单个文件的元信息描述哪些块包含文件数据、数据结束位置、最后更新时间等。当用户进程发送请求来读取文件数据时，文件系统实现准确定位数据在磁盘上的位置。然后采取行动将这些磁盘扇区放入内存中。

MMAP总结笔记
内核空间与用户空间 1.现代计算机都有两种以上的运行模式（普通模式、特权模式），linux系统只有两层：高优先级模...
mmap
简单的目录 mmap基础概念 mmap内存映射原理 mmap和常规文件操作的区别 mmap优点总结 mmap相关函...
【转】linux库函数mmap()原理
linux库函数mmap()原理目录 1.mmap基本概念 2.mmap内存映射原理 3.mmap和常规文件操作...
内存映射
转自认真分析mmap：是什么为什么怎么用阅读目录mmap基础概念mmap内存映射原理mmap和常规文件操作的...
Linux 共享内存函数
mmap 函数实现共享内存 1. 匿名mmap 匿名存储映射：调用mmap函数时，指定 MAP_ANONYMOUS...
NIO中FileChannel和MappedByteBuffer
MappedByteBuffer实现MMAP（Memory Mapped Files）技术（内存映射） mmap（...
Android mmap学习笔记
Android日志收集：日志的收集一直有个痛点，就是性能与日志完整性无法兼得。保证性能：要实现高性能的日志收...
2020-03-17 想了解文件内存映射mmap的过来看看啊
测试fread,fwrite,mmap_read,mmap_write分别在多线程单线程下的效率。结论是mmap...
linux手册翻译——mmap(2)
mmap，munmap-将文件或设备映射（消取映射）到内存 mmap() mmap()将在调用者进程的虚拟地址空间...
mmap和MMKV
一. mmap 1. 什么是mmap mmap是一种内存映射文件的方法，即将一个文件或者其他对象映射到进程的地址...