关于Buffer
全部缓冲区构成一个缓冲池
缓冲池:
- 缓冲区管理跟踪BmTrace区
- 记录缓冲区被使用的状况
- BMT_LIMIT项
- 缓冲区描述符BufferDestriptors区
- 每个缓冲区都要一个描述符
- NBUFFER+1个(0~NBUFFER)
- 多出的一个(第NBUFFER个)作为空闲缓冲区的链头,把所有空闲缓冲区链到一个双链表中
- 缓冲区
- 实际存储数据的地方
- NBUFFER个
- 缓冲区索引哈希表
- 通过表的文件节点(RelFileNode)和磁盘块(文件页),快速搜索到缓冲指定文件页的缓冲区,避免全池搜索
预取算法原理
前面已经分析过:
数据库存储结构:元组-文件页-物理段-表
元组即一条记录,文件页(磁盘块)是存储和维护的最小单位
数据库访问对象的过程可以分为:从磁盘找找到这个对象所在的数据库(文件页)-把数据块(文件页)从磁盘读到内存-从内存访问数据。
在这个过程中,磁盘和内存的IO之间的操作是最耗时的,也是影响响应时间的主要因素。
对于单次请求,这个过程是顺序执行的。
但是对于多次并发请求,仍然顺序执行,结果就是:在对内存中的数据进行处理时,磁盘IO处于空闲;需要读取新的数据时,磁盘IO又称为影响响应时间的主要因素。
如果能在处理内存中的数据时,就预测要从磁盘请求数据块的顺序,并提前将其读入内存,就能够减少等待IO完成所花费的时间。
预读算法实现
- 定义1:
BUF_READ_AHEAD_AREA
表示预读区域大小,以块为单位 - 定义2:
BUF_READ_AHEAD_THRESHOLD
表示预读的阈值
实现过程:
当系统调用ReadBuffer存取数据库中的一个数据页时:
- 如果数据页不是已在缓冲池中,则从文件读这个数据页到缓冲区
- 在读入之后,返回给CPU之前:
统计以当前页为边界的某个区域(BUF_READ_AHEAD_AREA
)内顺序读取的情况
- 如果这个区域内最近被存取的数据页是按块号顺序(升序或降序),并发生的次数达到一个阈值(
BUF_READ_AHEAD_THRESHOLD
) - 则按照这个顺序预取当前页前/后的一些连续页
- 否则不预取
通过预取算法,使得系统存取这些页是,它们已在缓冲区中;
同时通过分析算法实现过程,可以发现该算法尽量保证了预取的命中率;否则频频无法命中的预取只会浪费系统系能,造成负面影响。
预取算法对性能的影响
在一些测试资料中可以看到,PostgreSQL通过实现这种算法,比较大的降低了响应时间,但是吞吐量并不会收到明显影响。
这是符合预期的:预取算法其实是通过减少系统空闲来提高性能,并不是在硬件性能上有突破性的优化。
网友评论