一. mmap
1. 什么是mmap
mmap
是一种内存映射文件的方法,即将一个文件或者其他对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一映射关系。实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的磁盘上,即完成了对文件的操作而不必调用read
, write
等系统调用函数。相反,内核空间对这段区域的修改也直接反应用户空间,从而可以实现不同进程间的文件共享。如下图所示:

由上图可以看出,进程的虚拟地址空间,由多个虚拟内存区域构成。虚拟内存区域是进程的虚拟地址空间中的一个同质区间,即具有同样特性的连续地址范围。上图中所示的text数据段(代码段)
,初始数据段, BSS
数据段,堆,栈和内存映射,都是一个独立的虚拟内存区域。而为内存映射服务的地址空间处在堆栈之前的空余部分。
linux
内核使用vm_area_struct
结构来表示一个独立的虚拟内存区域,由于每个不同质的虚拟内存区域功能和内部机制都不同,因此一个进程使用多个vm_area_struct
结构来分别表示不同类型的虚拟内存区域。各个vm_area_struct
结构使用链表或者树形结构链接,方便进程快速访问,如下图所示:

vm_area_struct
结构中包含区域起始和终止地址以及其他相关信息,同时也包含了一个vm_ops指针,其内部可引出所有针对这个区域可以使用的系统调用函数。这样,进程对某一个虚拟内存区域的任何操作需要用到的信息,都可以从vm_area_struct
中获取。
mmap函数就是要创建一个新的vm_area_struct
结构,并将其与文件的物理磁盘地址相连。
2. mmap内存映射原理
mmap
内存映射的实现过程,总的来说可以分为三个阶段:
A. 进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域
- 进程在用户空间调用库函数
mmap
,原型:
void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
-
在当前进程的虚拟地址空间中,寻找一段空闲的满足要求的连续的虚拟地址
-
为此虚拟区分配一个
vm_area_struct
结构,接着对这个结构的各个域进行了初始化。 -
将新建的虚拟区结构
vm_area_struct
插入进程的虚拟地址区域链表或树中。
B. 调用内核空间的系统调用函数mmap(不同于用户空间函数),实现文件物理地址和进程虚拟地址一一映射关系。
-
为映射分配了新的虚拟地址区域后,通过待映射的文件指针,在文件描述符表中找到对应的文件描述符,通过文件描述符,链接到内核"已打开文件集"中该文件的文件结构体
(struct file)
,每个文件结构体维护着和这个已打开文件相关的各项信息。 -
通过该文件的文件结构体,链接到
file_operations
模块,调用内核函数mmap
,其原型为:
int mmap(struct file *filp, struct vm_area_struct *vma)
不同于用户空间库函数。
-
内核
mmap
函数通过虚拟文件系统inode
模块定位到文件磁盘物理地址 -
通过
remap_pfn_range
函数建立页表,即实现文件地址和虚拟地址区域的映射关系。此时,这个虚拟地址并没有任何的数据关联到主存中。
C. 进程发起对这片映射空间的访问,引发缺页异常,实现文件内容到物理内存(主存)的拷贝
注:前两个阶段仅在于创建虚拟区间并完成地址映射,但是并没有将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操作时。
-
进程的读或写操作访问虚拟地址空间这一段映射地址,通过查询页表,发现这一段地址并不在物理页面上。因为目前只建立了地址映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。
-
缺页异常进行一系列判断,确定无非法操作后,内核发起请求调页过程。
-
调页过程先在
交换缓存空间(swap cache
)中寻找需要访问的内存页,如果没有则调用nopage
函数把所缺的页从磁盘装入到主存中。 -
之后进程即可对这片主存进行读或者写的操作,如果写操作改变了其内容,一定时间后系统会自动回写脏页面到对应磁盘地址,也即完成了写入到文件的过程。
注:修改过的脏页面并不会立即更新回文件中,而是有一段时间的延迟,可以调用msync()来强制同步, 这样所写的内容就能立即保存到文件里了。
3. 常规文件访问
常规文件操作为了提高读写效率和保护磁盘,使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中,由于页缓存处在内核空间,不能被用户进程直接寻址,所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样,通过了两次数据拷贝过程,才能完成进程对文件内容的获取任务。写操作也是一样,待写入的buffer
在内核空间不能直接访问,必须要先拷贝至内核空间对应的主存,再写回磁盘中(延迟写回),也是需要两次数据拷贝。
4. mmap优点
-
对文件的读取操作,减少了页缓存,减少了数据的拷贝次数,用内存读写取代
I/O
读写,提高了文件读取效率。 -
实现了用户空间和内核空间的高效交互方式。两空间的各自修改操作可以直接反应在映射的区域内,从而被对方空间及时捕捉。
-
提供进程间共享内存及相互通信的方式,不管是父子进程还是无亲缘关系的进程,都可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对应映射区域的改动,达到进程间通信和进程间共享的目的。
-
同时如果
进程A
和进程B
都映射了区域C
,当A
第一次读取C
时通过缺页中断从磁盘复制文件页到内存中;但当B
再读C
的相同页面时,虽然也会产生缺页异常,但是不再需要从磁盘中复制文件过来,可直接使用已经保存在内存中数据。 -
可用于实现高效的大规模数据传输。内存空间不足,是制约大数据操作的一个方面,解决方案往往是借助硬盘空间协助操作,补充内存的不足。但是进一步会造成大量文件
I/O
操作,影响效率。这个问题可以通过mmap
映射很好解决。换句话说,但凡需要磁盘空间代替内存的时候,mmap
就可以发挥作用。
5. mmap缺点
-
对变长文件不适合
-
如果更新文件的操作很多,
mmap
避免两态拷贝优势就被摊还,最终还是落在了大量的脏页回写以及由此引发的随机I/O
上。所以在随机写很多的情况下,mmap
方式在效率上不一定会比带缓冲区的一般写快。
二. MMKV
MMKV
是基于mmap
内存映射的key-value
组件,底层序列化/反序列化使用protobuf
实现,性能高,稳定性强。
1. MMKV原理
A. 内存准备
通过mmap
内存映射文件,提供一段可供随时写入的内存块,App
只管往里面写数据,由iOS
操作系统负责将内存写到文件,不必担心crash
到时数据丢失。
B. 数据组织
数据序列化方面我们选用protobuf
协议,pb
在性能和空间占用效率表现优秀,考虑到我们要提供通用的KV
组件,key
可以限定是string
字符串类型,value
则多种多样(int, double, bool等)
,考虑将value
通过protobuf
协议序列化成统一的内存块buffer
,然后就可以将这些KV对象序列化到内存中。

C. 写入优化
标准的protobuf
不提供增量更新能力,每次写入都必须全量写入。
考虑到主要使用场景是频繁的进行写入更新,我们需要有增量更新的能力:
-
将增量
KV
对象序列化后,直接append
到内存末尾 -
这样同一个
key
会有新旧若干份数据,最新的数据在最后 -
那么只需要程序启动第一次打开
MMKV
时,不断用后读入的value
替换之前的值,就可以保证是最新有效的。
D. 空间增长
使用append
实现增量更新带来新的问题,就是不断append
的话,文件大小会增长得不可控,例如同一个key
不断更新的话,是可能耗尽几百M
甚至上G
空间,而事实上整改KV
文件就这一个key
,不到1k
空间就存得下。这明显不可取。
我们需要在性能和空间中做个折中:
-
以内存
pagesize
为单位申请空间,在空间用尽之前都是append
模式 -
当
append
到文件末尾时,进行文件重整,key
排重,尝试序列化保存排重结果。 -
排重后空间还是不够用,将文件扩大一倍,直到空间足够。

E. 数据有效性
考虑到文件系统,操作系统都有一定的不稳定性,我们另外增加了crc校验,对无效数据进行甄别。
F. MMKV
使用
MMKV
提供一个全局实例,可以直接使用:

可以看到MMKV
在使用上还是比较简单的。如果不同业务需要区别存储,也可以单独创建自己的实例。

G. 支持数据类型
支持以下 C 语语言基础类型:
bool、int32、int64、uint32、uint64、float、double
支持以下 ObjC 类型:
NSString、NSData、NSDate
网友评论