page cache 本质上是内核用了一块内存来解决 io设备和应用程序之间 巨大速度差距,减少 I/O,提升应用的 I/O 速度。
不使用page cache 则会有2个选择
- direct io
- 应用自己实现内存buffer (mysql自己实现了 buffer pool)
产生page cache 的两种方式
- Buffered I/O(标准 I/O);
数据从用户缓冲区到内核缓冲区, - Memory-Mapped I/O(存储映射 I/O)
用户空间直接映射到内核缓冲区page cache,直接读写
内存申请
应用在申请内存的时候,即使没有 free 内存,只要还有足够可回收的 Page Cache,就可以通过回收 Page Cache 的方式来申请到内存,回收的方式主要是两种:直接回收和后台回收
内存申请过程
观察内存回收 使用sar 命令
$ sar -B 1
02:14:01 PM pgpgin/s pgpgout/s fault/s majflt/s pgfree/s pgscank/s pgscand/s pgsteal/s %vmeff
02:14:01 PM 0.14 841.53 106745.40 0.00 41936.13 0.00 0.00 0.00 0.00
02:15:01 PM 5.84 840.97 86713.56 0.00 43612.15 717.81 0.00 717.66 99.98
02:16:01 PM 95.02 816.53 100707.84 0.13 46525.81 3557.90 0.00 3556.14 99.95
02:17:01 PM 10.56 901.38 122726.31 0.27 54936.13 8791.40 0.00 8790.17 99.99
02:18:01 PM 108.14 306.69 96519.75 1.15 67410.50 14315.98 31.48 14319.38 99.80
02:19:01 PM 5.97 489.67 88026.03 0.18 48526.07 1061.53 0.00 1061.42 99.99
pgscank/s : kswapd(后台回收线程) 每秒扫描的 page 个数。
pgscand/s: Application 在内存申请过程中每秒直接扫描的 page 个数。
pgsteal/s: 扫描的 page 中每秒被回收的个数。
%vmeff: pgsteal/(pgscank+pgscand), 回收效率,越接近 100 说明系统越安全,越接近 0 说明系统内存压力越大。
page cache 管理不当引起load升高
page cache难以释放导致的问题
1.直接内存回收:
观察:sar -B中pgscank/s、pgscand/s表示扫描的页面数量,前者表示kswapd扫描结果,后者表示直接扫描。需要让直接扫描越小越好。
解决:设置vm.min_free_kbytes,尽早开始后台回收。
2.脏页积压:
观察:sar -r中kbdirty即是脏页大小。
解决:设置vm/dirtyxxx控制脏页个数在合理范围内。
3.NUMA设置不合理:
观察:numactl --hardware查看是否还有一半内存空闲,但是还是频频发生direct reclaim。
解决:vm.zone_reclaim_mode = 0
- drop_caches 使用不当,导致page cache 被回收从而导致性能下降
观察 /proc/vmstat 性能下降前后是否 drop_pagecache 3 drop_slab 2 的变化。
5.内核机制引起的page cache被回收导致的
网友评论