最近一直在学习CUDA并行计算的相关知识。在学习《GPU高性能编程CUDA实战》(机械工业出版社)这本书时,遇到了一些问题,想了好长时间才想明白,这里我将自己的理解与大家分享一番,如果有错误的地方,欢迎请大家指点。
由于在点积运算这个例子中,核函数是最关键也是最难懂的部分,因此在这里我只详细介绍一下核函数的部分。首先我阐释一下大致的思路。按照书中的示例,进行点积运算的两个向量长度为33*1024,其中共使用了32个线程块,每个线程块中使用了256个线程。我们这里就不做改变了。(详情请参考本书第五章内容)
申请共享内存
首先我们需要申请共享内存,在这个例子中声明的是数组cache:
__shared__ float cache[threadsPerBlock];
这里我们需要明白的是,一旦这样声明数组,就会创建与线程块的数量相同的数组cahce,即每个线程块都会对应一个这样的数组cache。我们都知道,共享内存是用于同一个线程块内的线程之间交流的,不同线程块之间是无法通过共享内存进行交流的。另外,数组cache的大小是每个线程块中线程的个数,即线程块的大小。
每个线程单独工作
现在让我们来看看每个线程到底完成的是什么工作!
如果你还记得前面计算任意长度的向量和的话,你就会很容易理解这个过程。如果向量长度不是特别长(假设大小等于总线程个数)的话,每个线程只需要工作一次,即计算两个元素的积并保存在中间变量temp
里。但是实际计算过程中由于向量长度过长,一次计算可能会计算不完,每个线程需要多次计算才能完成所有工作,因此temp
保存的值可能为多个元素乘积之和,如下图所示
假设数组大小为16,线程总数为4。此时一次并行是无法完成工作的,所以需要多次并行,即每个线程需要做四次工作才可完成计算。
相应的代码如下:
int tid = threadIdx.x + blockIdx.x * blockDim.x;
int cacheIndex = threadIdx.x;
float temp = 0;
while (tid < N)
{
temp += a[tid] * b[tid];
tid += blockDim.x * gridDim.x;
}
如果你已经理解了上面这个过程,那么你也应该会明白每个线程块移动的步长为什么是总线程的个数了,即tid += blockDim.x * gridDim.x
这段代码。
多个线程协同工作
这一章主要讲的就是线程协作,所以我们需要明白线程之间是如何协作的——通过共享内存。每个线程将temp的值保存到每个线程块的共享内存(shared memory)中,即数组cache中,相应的代码如下:
cache[cacheIndex] = temp;
__syncthreads();
这样每个线程块中对应的数组cache保存的就是每个线程的计算结果。为了节省带宽,这里又采用了并行计算中常用的归约算法,来计算数组中所有值之和,并保存在第一个元素(cache[0])内。这样每个线程就通过共享内存(shared memory)进行数据交流了。具体代码如下所示:
//归约算法将每个线程块上的cache数组归约为一个值cache[0],最终保存在数组c里
int i = blockDim.x /2;
while (i != 0)
{
if (cacheIndex < i)
cache[cacheIndex] += cache[cacheIndex + i];
__syncthreads(); //确保每个线程已经执行完前面的语句
i /= 2;
}
NOTE:不要遗漏__syncthreads()
函数,另外关于归约算法本书中有详细的介绍,这里就不再赘述了。
保存归约结果
现在每个线程块的计算结果已经保存到每个共享数组cache的第一个元素cache[0]中,这样可以大大节省带宽。下面就需要将这些归约结果保存到全局内存(global memory)中。
观察核函数你会发现有一个传入参数——数组c。这个数组是位于全局内存中,每次使用线程块中线程ID为0的线程来将每个线程块的归约结果保存到该数组中,注意这里每个线程块中的结果保存到数组c中与之相对应的位置,即c[blockIdx.x]。
//选择每个线程块中线程索引为0的线程将最终结果传递到全局内存中
if (cacheIndex == 0)
c[blockIdx.x] = cache[0];
到这里核函数的工作已经结束,剩下的工作将交给主函数来完成,这里就不再赘述。
参考资料
- GPU高性能编程CUDA实战, Jason Sanders, Edward Kandrot, 机械工业出版社
网友评论