美文网首页
PostgreSQL中的预取算法

PostgreSQL中的预取算法

作者: ZYJ2016 | 来源:发表于2017-01-16 19:48 被阅读0次

    关于Buffer

    全部缓冲区构成一个缓冲池

    缓冲池:

    • 缓冲区管理跟踪BmTrace区
    • 记录缓冲区被使用的状况
    • BMT_LIMIT项
    • 缓冲区描述符BufferDestriptors区
    • 每个缓冲区都要一个描述符
    • NBUFFER+1个(0~NBUFFER)
    • 多出的一个(第NBUFFER个)作为空闲缓冲区的链头,把所有空闲缓冲区链到一个双链表中
    • 缓冲区
    • 实际存储数据的地方
    • NBUFFER个
    • 缓冲区索引哈希表
    • 通过表的文件节点(RelFileNode)和磁盘块(文件页),快速搜索到缓冲指定文件页的缓冲区,避免全池搜索

    预取算法原理

    前面已经分析过:
    数据库存储结构:元组-文件页-物理段-表
    元组即一条记录,文件页(磁盘块)是存储和维护的最小单位

    数据库访问对象的过程可以分为:从磁盘找找到这个对象所在的数据库(文件页)-把数据块(文件页)从磁盘读到内存-从内存访问数据。

    在这个过程中,磁盘和内存的IO之间的操作是最耗时的,也是影响响应时间的主要因素。

    对于单次请求,这个过程是顺序执行的。
    但是对于多次并发请求,仍然顺序执行,结果就是:在对内存中的数据进行处理时,磁盘IO处于空闲;需要读取新的数据时,磁盘IO又称为影响响应时间的主要因素。

    如果能在处理内存中的数据时,就预测要从磁盘请求数据块的顺序,并提前将其读入内存,就能够减少等待IO完成所花费的时间。

    预读算法实现

    • 定义1:BUF_READ_AHEAD_AREA
      表示预读区域大小,以块为单位
    • 定义2:BUF_READ_AHEAD_THRESHOLD
      表示预读的阈值

    实现过程:
    当系统调用ReadBuffer存取数据库中的一个数据页时:

    1. 如果数据页不是已在缓冲池中,则从文件读这个数据页到缓冲区
    2. 在读入之后,返回给CPU之前:
      统计以当前页为边界的某个区域(BUF_READ_AHEAD_AREA )内顺序读取的情况
    • 如果这个区域内最近被存取的数据页是按块号顺序(升序或降序),并发生的次数达到一个阈值(BUF_READ_AHEAD_THRESHOLD
    • 则按照这个顺序预取当前页前/后的一些连续页
    • 否则不预取

    通过预取算法,使得系统存取这些页是,它们已在缓冲区中;
    同时通过分析算法实现过程,可以发现该算法尽量保证了预取的命中率;否则频频无法命中的预取只会浪费系统系能,造成负面影响。

    预取算法对性能的影响

    在一些测试资料中可以看到,PostgreSQL通过实现这种算法,比较大的降低了响应时间,但是吞吐量并不会收到明显影响。

    这是符合预期的:预取算法其实是通过减少系统空闲来提高性能,并不是在硬件性能上有突破性的优化。

    相关文章

      网友评论

          本文标题:PostgreSQL中的预取算法

          本文链接:https://www.haomeiwen.com/subject/rpakbttx.html