系统性能调优必知必会

作者: 技术灭霸 | 来源:发表于2021-09-08 21:54 被阅读0次

系统性能调优必知必会
优秀参考文章--性能优化
10分钟后性能测试瓶颈调优！想进大厂这个必须会
JVM调优
optimize
待阅读文章
系统优化专题1
【优化技术专题】「系统性能调优实战」终极关注应用系统性能调优及原
SQL必知必会(数据库调优)
Performance Tuning (TBD)

01 | CPU缓存：怎样写代码能够让CPU执行得更快？

CPU缓存通常分为大小不等的三级缓存

我们的代码优化目标是提升CPU缓存的命中率。

遇到遍历访问数组的情况时，按照内存布局顺序访问将会带来很大的性能提升。

当array数组有序，CPU含有分支预测器会动态地根据历史命中数据对未来进行预测，命中率就会非常高
由于缓存是根据CPU Cache Line批量操作数据，顺序操作内存也有性能提升。

如果将每个线程分别绑定在不同的CPU核心上，性能便会获取很大的提升，Linux上提供sched_setaffinity。Perf工具也提供了cpu-migrations事件，可以显示进程从不同的CPU核心上迁移的次数。

02 | 内存池：如何提升内存分配的效率？

在业务代码和操作系统内核，有两层内存池，Java已经有应用内存池，为什么还要c库内存池呢？
因为除了jvm管理的堆内存外，java还有堆外内存，由于它不使用jvm的垃圾回收机制，所以更稳定、持久、处理IO的速度也更快。

Linux下的JVM编译时默认使用Ptmalloc2内存池，每个线程都预分配了64MB，可以提升后续内存分配的性能。

不过也可以通过MALLOC_ARENA_MAX环境变量，可以限制线程内存池的最大数量。

TCMalloc对多线程下的小内存分配特别友好，而Ptmalloc2则对各类尺寸的内存申请都有稳定的表现，更加通用。

从堆还是栈上分配内存？

为什么栈中分配内存更快呢？

每个线程都有自己的栈，分配内存时不需要加锁保护，而且栈上对象的尺寸在编译阶段就已经写入可执行文件了，执行效率更高。

缺点：

栈内存生命周期有限。随着函数调用结束后自动释放。
栈的容量有限。

当我们分配内存时，如果在满足功能的情况下，可以在栈中分配的话，就选择栈。

03 | 索引：如何用哈希表管理亿级对象？

哈希表基于数组实现，而数组可以根据下标随机访问任意元素。数组之所以随机访问，是因为它由连续内存承载，且每个数组元素的大小都相等，于是，当我们知道下标后，把下标乘以元素大小，再加上数组的首地址，就可以获取目标访问地址，直接获取数据。

所以，哈希函数的执行时间是常量，数组的随机访问也是常量，时间复杂度就是O（1）

有两种方法解决哈希冲突：

链接法
开放寻址法（更擅长序列化数据，确保所有对象都在数组里，就可以把数组用到的这段连续内存原地映射到文件中）

降低哈希表的冲突概率

调优哈希函数
扩容

转载因子越接近于1，冲突概率越大，我们不能改变元素的数量，只能通过扩容提升哈希桶的数量，减少冲突。

使用哈希表，要注意几个关键问题

生产环境一定要考虑容灾，把哈希表原地序列化为文件是一个解决方案，它能保证新进程快速恢复哈希表。
注重内存的节约使用
优化哈希函数

04 | 零拷贝：如何高效地传输文件？

磁盘是主机中最慢的硬件之一，常常是性能瓶颈，所以优化它能够获取立竿见影的效果。

所以针对磁盘的优化技术层出不穷，比如零拷贝、直接IO、异步IO等等，这些技术降低操作时延，提升系统的吞吐量，围绕内核的磁盘高速缓存（PageCache）去减少CPU和磁盘设备的工作量。

image.png

要想提升传输文件的性能，从降低上下文切换的频率和内存拷贝次数两个方向入手。

2次与用户缓存区相关的拷贝动作都不是必需的，因为在磁盘文件发到网络的场景中，用户缓存区没有必须存在的理由。

这就是零拷贝技术

异步IO + 直接IO

高并发场景处理大文件时，应当使用异步IO和直接IO来替换零拷贝。

绕过PageCache的IO，叫直接IO，对于磁盘，异步IO只支持直接IO。

直接IO的应用场景

应用程序已经实现了磁盘文件的缓存，不需要PageCache再次缓存
高并发传输大文件，大文件难以命中PageCache缓存，同时还挤掉小文件使用PageCache需要的内存

05 | 协程：如何快速地实现高并发服务？

如何快速地实现高并发服务？

要想实现高并发，一个简单的做法就是多线程，为每个请求分配一个线程来执行。但多线程的方式也是有弊端的，如下:

单个线程消耗内存过多，没有足够的内存去创建几万线程实现并发
切换请求是内核通过切换线程来实现的，线程的切换就会带来上下文的切换，也是会耗费 CPU 资源的

如何破？

把本来由内核实现的请求切换工作交给用户态的代码来完成，这样可以降低切换成本和内存占用

异步编程可以实现用户态的请求切换。异步化依赖 IO 多路复用机制的同时，还需要把阻塞方法改为非阻塞方法

比如一个线程处理两个请求，请求 1 过来通过异步框架发起异步 IO 读，同时向异步框架注册回调函数。然后切换到请求 2，由异步框架发起异步 IO 读，同样也会注册回调函数。
最后由异步框架依赖 IO 多路复用机制来检查数据是否就绪，如果数据就绪就通过之前请求注册的回调函数去处理

异步代码不好写，容易出错，我们项目中用的 vertx 异步框架，我到现在也写不好异步代码。

协程可以弥补异步框架的不足，其实协程是建立在异步的基础上的，他俩都是使用非阻塞的系统调用与内核交互，把请求切换放到用户态。他俩不同的地方在于，协程把异步化中的两段函数封装成一个阻塞的协程函数。在该函数执行时，由协程框架完成协程之间的切换，协程是无感知的。

协程是如何完成切换的？

在用户态完成协程的切换和在内核态完成线程的切换原理类似。
每个协程有独立的栈，一般占用空间选小于线程的栈，(协程一般是几十 KB，线程是 8MB)所以相同的内存空间可以创建更多的协程来处理请求。栈中保存了函数的调用关系、参数和返回值。CPU 中的栈寄存器 SP 指向当前协程的栈，指令寄存器 IP 保存下一条执行的指令的地址。

在协程 1 切换到协程 2 时要把协程 1 的 SP 和 IP 寄存器的值保存下来，再从内存中找到协程 2 上一次切换前保存的寄存器值，写入到 CPU 的寄存器，这样就完成了协程的切换