美文网首页CUDA编程
1.2 CUDA编程模型之启动CUDA内核

1.2 CUDA编程模型之启动CUDA内核

作者: Catherin_gao | 来源:发表于2020-07-07 12:05 被阅读0次

    1. 启动CUDA内核

    1.1启动CUDA内核函数格式

    kernel_name <<<grid, block>>>(argument list);
    
    • kernel在device上执行时实际上是启动很多线程,一个kernel所启动的所有线程称为一个网格(grid)。
    • 同一block内的线程可以轻松地相互通信,属于不同block的线程无法协作。
    • 对于给定的问题,可以使用不同的grid和block布局来组织线程。例如,假设有32个数据元素用于计算。可以将8个元素分组到每个块中,并按以下方式启动4个块:
    kernel_name<<<4, 8>>>(argument list);
    
    thread编号.png

    1.2 CUDA内核启动

    • 与C函数调用不同,所有CUDA内核启动都是异步的。 CUDA内核被调用后,控制权立即返回给CPU。
    • 可以调用以下函数来强制主机应用程序等待所有内核完成。
    cudaError_t cudaDeviceSynchronize(void);
    
    • 一些CUDA运行时API在主机和设备之间执行隐式同步。使用cudaMemcpy在主机和设备之间复制数据时,将在主机端执行隐式同步,并且主机应用程序必须等待数据复制完成。在所有先前的内核调用完成后,它将开始复制。复制完成后,控制权立即返回主机。
    cudaError_t cudaMemcpy(void* dst, const void* src, size_t count, cudaMemcpyKind kind);
    

    2. 写自己的GPU kernel

    关键词 global会告诉编译器这个函数在CPU上调用,在GPU上执行。

    __global__ void helloFromGPU(void) {
        printf(“Hello World from GPU!\n”); 
    }
    
    • kernel的返回类型必须是void.

    3. 示例

    • 矩阵A和矩阵B的简单相加。
      CPU代码
    void sumArraysOnHost(float *A, float *B, float *C, const int N) { 
        for (int i = 0; i < N; i++)
            C[i] = A[i] + B[i];
    }
    

    GPU代码:

         __global__ void sumArraysOnGPU(float *A, float *B, float *C) {
              int i = threadIdx.x;
              C[i] = A[i] + B[i];
    }
    

    内置的thread坐标变量用来替换array坐标i,使用启动GPU kernel来启动N个threads。

    sumArraysOnGPU<<<1,32>>>(float *A, float *B, float *C);
    

    4. 验证Kernel正确性

    • 在Fermi及后面的版本中,可以使用printf函数打印
    • 设置执行参数为 <<<1,1>>>, 强制 kernel运行一个block和一个thread

    相关文章

      网友评论

        本文标题:1.2 CUDA编程模型之启动CUDA内核

        本文链接:https://www.haomeiwen.com/subject/jewqcktx.html