美文网首页CUDA
深入理解CUDA点积运算

深入理解CUDA点积运算

作者: 退休码农飞伯德 | 来源:发表于2019-11-14 13:09 被阅读0次

最近一直在学习CUDA并行计算的相关知识。在学习《GPU高性能编程CUDA实战》(机械工业出版社)这本书时,遇到了一些问题,想了好长时间才想明白,这里我将自己的理解与大家分享一番,如果有错误的地方,欢迎请大家指点。

由于在点积运算这个例子中,核函数是最关键也是最难懂的部分,因此在这里我只详细介绍一下核函数的部分。首先我阐释一下大致的思路。按照书中的示例,进行点积运算的两个向量长度为33*1024,其中共使用了32个线程块,每个线程块中使用了256个线程。我们这里就不做改变了。(详情请参考本书第五章内容)

申请共享内存

首先我们需要申请共享内存,在这个例子中声明的是数组cache:

__shared__ float cache[threadsPerBlock];

这里我们需要明白的是,一旦这样声明数组,就会创建与线程块的数量相同的数组cahce,即每个线程块都会对应一个这样的数组cache。我们都知道,共享内存是用于同一个线程块内的线程之间交流的,不同线程块之间是无法通过共享内存进行交流的。另外,数组cache的大小是每个线程块中线程的个数,即线程块的大小。

每个线程单独工作

现在让我们来看看每个线程到底完成的是什么工作!

如果你还记得前面计算任意长度的向量和的话,你就会很容易理解这个过程。如果向量长度不是特别长(假设大小等于总线程个数)的话,每个线程只需要工作一次,即计算两个元素的积并保存在中间变量temp里。但是实际计算过程中由于向量长度过长,一次计算可能会计算不完,每个线程需要多次计算才能完成所有工作,因此temp保存的值可能为多个元素乘积之和,如下图所示

explantion.png

假设数组大小为16,线程总数为4。此时一次并行是无法完成工作的,所以需要多次并行,即每个线程需要做四次工作才可完成计算。

相应的代码如下:

    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int cacheIndex = threadIdx.x;   

    float temp = 0;
    while (tid < N)
    {
        temp += a[tid] * b[tid];
        tid += blockDim.x * gridDim.x;
    }

如果你已经理解了上面这个过程,那么你也应该会明白每个线程块移动的步长为什么是总线程的个数了,即tid += blockDim.x * gridDim.x这段代码。

多个线程协同工作

这一章主要讲的就是线程协作,所以我们需要明白线程之间是如何协作的——通过共享内存。每个线程将temp的值保存到每个线程块的共享内存(shared memory)中,即数组cache中,相应的代码如下:

             cache[cacheIndex] = temp;
            __syncthreads();

这样每个线程块中对应的数组cache保存的就是每个线程的计算结果。为了节省带宽,这里又采用了并行计算中常用的归约算法,来计算数组中所有值之和,并保存在第一个元素(cache[0])内。这样每个线程就通过共享内存(shared memory)进行数据交流了。具体代码如下所示:

//归约算法将每个线程块上的cache数组归约为一个值cache[0],最终保存在数组c里
    int i = blockDim.x /2;
    while (i != 0)
    {
        if (cacheIndex < i)
            cache[cacheIndex] += cache[cacheIndex + i];
        __syncthreads();        //确保每个线程已经执行完前面的语句

        i /= 2;
    }

NOTE:不要遗漏__syncthreads()函数,另外关于归约算法本书中有详细的介绍,这里就不再赘述了。

保存归约结果

现在每个线程块的计算结果已经保存到每个共享数组cache的第一个元素cache[0]中,这样可以大大节省带宽。下面就需要将这些归约结果保存到全局内存(global memory)中。

观察核函数你会发现有一个传入参数——数组c。这个数组是位于全局内存中,每次使用线程块中线程ID为0的线程来将每个线程块的归约结果保存到该数组中,注意这里每个线程块中的结果保存到数组c中与之相对应的位置,即c[blockIdx.x]。

//选择每个线程块中线程索引为0的线程将最终结果传递到全局内存中
    if (cacheIndex == 0)
        c[blockIdx.x] = cache[0];

到这里核函数的工作已经结束,剩下的工作将交给主函数来完成,这里就不再赘述。

参考资料

  1. GPU高性能编程CUDA实战, Jason Sanders, Edward Kandrot, 机械工业出版社

相关文章

  • 深入理解CUDA点积运算

    最近一直在学习CUDA并行计算的相关知识。在学习《GPU高性能编程CUDA实战》(机械工业出版社)这本书时,遇到了...

  • 点积(dot)运算及简单应用

    写在最前面 1.本文将尽量简明直观的介绍点积运算,及其在python中的简单应用。对点积运算的理解将对机器学习的算...

  • 积的乘方教学设计

    教学目标: 1.探究并理解积的乘方运算性质,能运用积的乘方运算性质进行计算. 2.在探索积的乘方的运算性...

  • 20、tensorflow 和卷积Converlution

    一、tf-gpu的安装 cuda--让我们的电脑可以调用显卡进行运算。 cuda--下载和安装 cuda---程序...

  • 向量外积的高中数学运用

    向量积,数学中又称外积、叉积,物理中称矢积、叉乘,是一种在向量空间中向量的二元运算。与点积不同,它的运算结果是一个...

  • Windows+VS2013爆详细Caffe编译安装教程

    1.安装cuda Cuda是英伟达推出的GPU加速运算平台 我这里安装的是cuda7.5,已经安装过的忽略,还没有...

  • 线性代数的本质(二)

    还是延续上次的理解方法,若需更加深入理解请看视频(线性代数的本质) 矩阵运算的本质 上次我们说到,矩阵运算本质是加...

  • 【数学】统计基础

    点积(dot product/scalar product):即两个向量相乘的数量积,运算结果是标量。 例:向量 ...

  • chainer安装问题--------未解决

    关于cuda和cudnn的安装上篇已经进行了说明。 判断安装好的chainer是否支持cuda运算。判断chain...

  • Metal每日分享,3x3矩阵卷积滤镜效果

    本案例的目的是理解如何用Metal实现3x3卷积矩阵效果滤镜,取像素点周边九个区域半径点像素rgb值进行矩阵运算获...

网友评论

    本文标题:深入理解CUDA点积运算

    本文链接:https://www.haomeiwen.com/subject/xvmkictx.html