4.1 CPU缓存

为了提高程序运行的性能，现代CPU在很多方面对程序进行了优化。使用CPU高速缓存就是其中一种途径。目的就是为了尽可能地避免处理器访问主内存的时间开销。

现代CPU一般有三级缓存，使用cpu-z能清楚地看到。

CPU-Z截取的三级缓存
多级缓存：
L1 Cache（一级缓存）是CPU第一层高速缓存，分为数据缓存和指令缓存。一般服务器CPU的L1缓存的容量通常在32-4096KB。（每个核心都有自己的L1缓存）
L2由于L1级高速缓存容量的限制，为了再次提升CPU的运行速度，在CPU外部放置多一个高速缓存（每个核心都有自己的L2缓存）
L3都是内置的。L3缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能，具有较大的L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。一般是多核共享一个L3缓存。

缓存同步协议（MESI协议）：
多CPU读取同样的数据进行缓存，进行不同运算之后，最终写入主内存以哪个CPU为准?
在这种高速缓存回写的场景下，有一个缓存一致性协议，多数CPU厂商对它进行了实现。MESI协议，它规定每条缓存有个状态位，同时定义了下面四个状态：
1）修改态(Modified)：此cache行已被修改过（脏行），内容已不同于主存，为此cache专有2）专有态（Exclusive）：此cache行内容同于主存，但不出现于其它cache中；
3）共享态（Shared）：此cache行内容同于主存，但也出现于其它cache中；
4）无效态（Invalid）：此cache行内容无效（空行）

多处理器时，单个CPU对缓存中数据进行了改动，需要通知给其他CPU。也就是意味着，CPU处理要控制自己的读写操作，还要监听其他CPU发出的通知，从而保证最终一致。

所谓的MESI协议，通俗地说就是某个核自己修改了主存中的内容，还要告诉其他核心，自己进行了什么样的操作，不然其他核心就不知道当前它自己核心中的缓存数据是不是跟主存一致。

4.2 CPU性能优化手段-运行时指令重排

指令重排场景：当CPU写缓存时发现缓存区块正被其他CPU占用，为了提高CPU处理性能，可能将后面的读缓存命令优先执行。

指令重排
指令重排要遵守as-ifserial语义，因为不能因为指令重排而导致最终执行结果不一样。
as-if-serial语义的意思指：不管怎么重排序（编译器和处理器为了提高并行度），（单线程）程序的执行结果不能被改变。编译器，runtime和处理器都必须遵守as-if-serial语义。也就是说：编译器和处理器不会对存在数据依赖关系的操作做重排序。
指令重排的目的是为了让CPU核心减少等待的时间，假设当前写缓存的操作被其他线程所占用，就可以让当前线程先进行读缓存。
1、CPU高速缓存下有一个问题：
缓存中的数据与主内存的数据并不是实时同步的，各CPU（或CPU核心）间缓存的数据也不是实时同步。在同一个时间点，各CPU所看到同一内存地址的数据的值可能是不一致的。

2、CPU执行指令重排序优化下有一个问题：
虽然遵守了as-if-serial语义，单仅在单CPU自己执行的情况下能保证结果正确。
多核多线程中，指令逻辑无法分辨因果关联，可能出现乱序执行，导致程序运行结果错误。

针对第一个问题，由于各个CPU自己有一级二级缓存，所以它以为它缓存中的某个地址对应主存中的值，但是其实当前主存中的值已经被其他CPU改过了，这样就会造成不同CPU所看到的同一内存地址的数据的值不一致的问题。

内存屏障：
写内存屏障（Store Memory Barrier）：在指令后插入Store Barrier，能让写入缓存中的最新数据更新写入主内存，让其他线程可见。
强制写入主内存，这种显示调用，CPU就不会因为性能考虑而去对指令重排。

读内存屏障（Load Memory Barrier）：在指令前插入Load Barrier，可以让高速缓存中的数据失效，强制从新从主内存加载数据。

强制读取主内存内容，让CPU缓存与主内存保持一致，避免了缓存导致的一致性问题