1.2 CUDA编程模型之启动CUDA内核

作者: Catherin_gao | 来源:发表于2020-07-07 12:05 被阅读0次

【CUDA】学习记录（2）-编程模型
CUDA 入门之 Ubuntu 系统下环境搭建
PyTorch踩过的12坑精选
CUDAC权威编程---第三章
CUDA编程入门（一）
Deeplearning4j-使用Cuda 9.1和 Cudnn
2019-03-07 CPU和GPU的CMakeLists的
集群的使用
cuda编程
RTFSC | Caffe源码阅读（其二）

1. 启动CUDA内核

1.1启动CUDA内核函数格式

kernel_name <<<grid, block>>>(argument list);

kernel在device上执行时实际上是启动很多线程，一个kernel所启动的所有线程称为一个网格（grid)。
同一block内的线程可以轻松地相互通信，属于不同block的线程无法协作。
对于给定的问题，可以使用不同的grid和block布局来组织线程。例如，假设有32个数据元素用于计算。可以将8个元素分组到每个块中，并按以下方式启动4个块：

kernel_name<<<4, 8>>>(argument list);

thread编号.png

1.2 CUDA内核启动

与C函数调用不同，所有CUDA内核启动都是异步的。 CUDA内核被调用后，控制权立即返回给CPU。
可以调用以下函数来强制主机应用程序等待所有内核完成。

cudaError_t cudaDeviceSynchronize(void);

一些CUDA运行时API在主机和设备之间执行隐式同步。使用cudaMemcpy在主机和设备之间复制数据时，将在主机端执行隐式同步，并且主机应用程序必须等待数据复制完成。在所有先前的内核调用完成后，它将开始复制。复制完成后，控制权立即返回主机。

cudaError_t cudaMemcpy(void* dst, const void* src, size_t count, cudaMemcpyKind kind);

2. 写自己的GPU kernel

关键词 global会告诉编译器这个函数在CPU上调用，在GPU上执行。

__global__ void helloFromGPU(void) {
    printf(“Hello World from GPU!\n”); 
}

kernel的返回类型必须是void.

3. 示例

矩阵A和矩阵B的简单相加。
CPU代码

void sumArraysOnHost(float *A, float *B, float *C, const int N) { 
    for (int i = 0; i < N; i++)
        C[i] = A[i] + B[i];
}

GPU代码：

     __global__ void sumArraysOnGPU(float *A, float *B, float *C) {
          int i = threadIdx.x;
          C[i] = A[i] + B[i];
}

内置的thread坐标变量用来替换array坐标i，使用启动GPU kernel来启动N个threads。

sumArraysOnGPU<<<1,32>>>(float *A, float *B, float *C);

4. 验证Kernel正确性

在Fermi及后面的版本中，可以使用printf函数打印
设置执行参数为 <<<1,1>>>, 强制 kernel运行一个block和一个thread

网友评论

CUDA编程

本文标题：1.2 CUDA编程模型之启动CUDA内核

本文链接：https://www.haomeiwen.com/subject/jewqcktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

1.2 CUDA编程模型之启动CUDA内核

1. 启动CUDA内核

1.1启动CUDA内核函数格式

1.2 CUDA内核启动

2. 写自己的GPU kernel

3. 示例

4. 验证Kernel正确性

相关文章

【CUDA】学习记录（2）-编程模型

CUDA 入门之 Ubuntu 系统下环境搭建

PyTorch踩过的12坑精选

CUDAC权威编程---第三章

CUDA编程入门（一）

Deeplearning4j-使用Cuda 9.1和 Cudnn

2019-03-07 CPU和GPU的CMakeLists的

集群的使用

cuda编程

RTFSC | Caffe源码阅读（其二）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

CUDA编程