美文网首页
伪共享(false sharing)

伪共享(false sharing)

作者: mindhook | 来源:发表于2020-03-04 21:08 被阅读0次

    背景:

    在对称多处理器(SMP)系统中,每个处理器都有各自的本地cache(local cache)。内存系统必须保证cache一致性(cache coherence)。

    False Sharing:

    伪共享(false sharing)发生在不同处理器上的线程修改位于同一个cache line的变量这种情景下【cache被划分为cache line,cache line是cache与主存进行交换的单位,是能被cache处理的内存chunks,chunk的大小即为cache line size,典型的大小为32,64及128 Bytes。这会导致cache line失效并强制刷新,因此导致性能下降。

    避免伪共享:

    CPU利用cache和内存之间交换数据的最小粒度不是字节,而是称为cache line的一块固定大小的区域,缓存行是内存交换的实际单位。缓存行是2的整数幂个连续字节,一般为32-256个字节,最常见的缓存行大小是64个字节。假设我们有一个512字节的一级缓存,那么按照64B的缓存单位大小来算,这个一级缓存所能存放的缓存个数就是512/64 = 8个。

    在写多线程代码时,为了避免使用锁,通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突。从逻辑上看这样的设计无懈可击,但是实践的过程可能会发现有些场景下非但没提高执行速度,反而会性能很差,而且年轻司机通常很难定位问题所在。

    问题在于cpu的cache line,当多线程修改互相独立的变量时,如果这些变量共享同一个缓存行,就会无意中影响彼此的性能,这就是伪共享,即false-sharing

    处理方式:

    1. 使用编译指示,来强制使每一个变量对齐。下面的代码显式了编译器使用__declspec( align(n) ) 此处n=64,按照cache line边界对齐。

     __declspec (align(64)) int thread1_global_variable; 

     __declspec (align(64)) int thread2_global_variable;

    当使用数组时,在cache line尾部填充padding来保证数据元素在cache line边界开始。如果不能够保证数组按照cache line边界对齐,填充数据结构【数组元素】使之是cache line大小的两倍。下面的代码显式了填充数据结构使之按照cache line对齐。并且通过__declspec( align(n) )语句来保证数组也是对齐的。如果数组是动态分配的,你可以增加分配的大小,并调整指针来对其到cache line边界。

     struct ThreadParams  { // For the following 4 variables: 4*4 = 16 bytes 

      unsigned long thread_id; 

      unsigned long v; // Frequent read/write access variable 

      unsigned long start; 

      unsigned long end; 

      // expand to 64 bytes to avoid false-sharing 

      // (4 unsigned long variables + 12 padding)*4 = 64 

      int padding[12]; 

     }; 

     __declspec (align(64)) struct ThreadParams Array[10];

    2. 使用线程局部数据拷贝(thread-local copies of data)。线程局部数据拷贝能够被频繁读取和修改,并且只将结果完全拷贝回去(only when complete, copy the result back to the data structure)【应指该线程随意读并且修改,但只写回一次】。下面的代码显式了使用局部拷贝来避免伪共享。

     struct ThreadParams  {   // For the following 4 variables: 4*4 = 16 bytes 

      unsigned long thread_id; 

      unsigned long v; //Frequent read/write access variable 

      unsigned long start; 

      unsigned long end; 

     }; 

     void threadFunc(void *parameter)  { 

     ThreadParams *p = (ThreadParams*) parameter; 

      // local copy for read/write access variable 

      unsigned long local_v = p->v; 

      for(local_v = p->start; local_v < p->end; local_v++) 

      { 

      // Functional computation 

      } 

      p->v = local_v; // Update shared data structure only once

     }

    相关文章

      网友评论

          本文标题:伪共享(false sharing)

          本文链接:https://www.haomeiwen.com/subject/ntbxchtx.html