背景:
在对称多处理器(SMP)系统中,每个处理器都有各自的本地cache(local cache)。内存系统必须保证cache一致性(cache coherence)。
False Sharing:
伪共享(false sharing)发生在不同处理器上的线程修改位于同一个cache line的变量这种情景下【cache被划分为cache line,cache line是cache与主存进行交换的单位,是能被cache处理的内存chunks,chunk的大小即为cache line size,典型的大小为32,64及128 Bytes。这会导致cache line失效并强制刷新,因此导致性能下降。
避免伪共享:
CPU利用cache和内存之间交换数据的最小粒度不是字节,而是称为cache line的一块固定大小的区域,缓存行是内存交换的实际单位。缓存行是2的整数幂个连续字节,一般为32-256个字节,最常见的缓存行大小是64个字节。假设我们有一个512字节的一级缓存,那么按照64B的缓存单位大小来算,这个一级缓存所能存放的缓存个数就是512/64 = 8个。
在写多线程代码时,为了避免使用锁,通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突。从逻辑上看这样的设计无懈可击,但是实践的过程可能会发现有些场景下非但没提高执行速度,反而会性能很差,而且年轻司机通常很难定位问题所在。
问题在于cpu的cache line,当多线程修改互相独立的变量时,如果这些变量共享同一个缓存行,就会无意中影响彼此的性能,这就是伪共享,即false-sharing。
处理方式:
1. 使用编译指示,来强制使每一个变量对齐。下面的代码显式了编译器使用__declspec( align(n) ) 此处n=64,按照cache line边界对齐。
__declspec (align(64)) int thread1_global_variable;
__declspec (align(64)) int thread2_global_variable;
当使用数组时,在cache line尾部填充padding来保证数据元素在cache line边界开始。如果不能够保证数组按照cache line边界对齐,填充数据结构【数组元素】使之是cache line大小的两倍。下面的代码显式了填充数据结构使之按照cache line对齐。并且通过__declspec( align(n) )语句来保证数组也是对齐的。如果数组是动态分配的,你可以增加分配的大小,并调整指针来对其到cache line边界。
struct ThreadParams { // For the following 4 variables: 4*4 = 16 bytes
unsigned long thread_id;
unsigned long v; // Frequent read/write access variable
unsigned long start;
unsigned long end;
// expand to 64 bytes to avoid false-sharing
// (4 unsigned long variables + 12 padding)*4 = 64
int padding[12];
};
__declspec (align(64)) struct ThreadParams Array[10];
2. 使用线程局部数据拷贝(thread-local copies of data)。线程局部数据拷贝能够被频繁读取和修改,并且只将结果完全拷贝回去(only when complete, copy the result back to the data structure)【应指该线程随意读并且修改,但只写回一次】。下面的代码显式了使用局部拷贝来避免伪共享。
struct ThreadParams { // For the following 4 variables: 4*4 = 16 bytes
unsigned long thread_id;
unsigned long v; //Frequent read/write access variable
unsigned long start;
unsigned long end;
};
void threadFunc(void *parameter) {
ThreadParams *p = (ThreadParams*) parameter;
// local copy for read/write access variable
unsigned long local_v = p->v;
for(local_v = p->start; local_v < p->end; local_v++)
{
// Functional computation
}
p->v = local_v; // Update shared data structure only once
}
网友评论