美文网首页
CUDA笔记(二)内存操作

CUDA笔记(二)内存操作

作者: Yao_0 | 来源:发表于2020-07-23 18:20 被阅读0次
typedef struct
{
    int a;
    int b;
    int c;
    int d;
} MY_TYPE_T;

typedef INTERLEAVED_T MY_TYPE_T[1024]; 

typedef int ARRAY_T[1024];

typedef struct
{
    ARRAY_T a;
    ARRAY_T b;
    ARRAY_T c;
    ARRAY_T d;
}NON_INTERLEAVED_T;
__host__ void add_test_non_interleaved_cpu(NON_INTERLEAVED_T * const host_dest_ptr, const NON_INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr->a[index] += host_src_ptr->a[index];
            host_dest_ptr->b[index] += host_src_ptr->b[index];
            host_dest_ptr->c[index] += host_src_ptr->c[index];
            host_dest_ptr->d[index] += host_src_ptr->d[index];
        }
    }
}

__host__ void add_test_interleaved_cpu(INTERLEAVED_T * const host_dest_ptr, const INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr[index].a += host_src_ptr[index].a;
            host_dest_ptr[index].b += host_src_ptr[index].b;
            host_dest_ptr[index].c += host_src_ptr[index].c;
            host_dest_ptr[index].d += host_src_ptr[index].d;
        }
    }
}

这两个加和函数明显类似,每个函数都对列表中的所有元素迭代iter次,从源数据结构中读取一个值,然后加和到目标数据结构中。利用CPU系统时间统计这两个函数分别运行的时间可以发现
“非交错内存访问方式的执行时间比交错访问方式的时间多出3~4倍。”
这是意料之中的,因为在交错访问的例子中,CPU访问元素a的同时会将结构体中元素b、c和d读入缓存中,使他们在相同的缓存行中。然而非交错版本则需要对4个独立的物理内存进行访问,也就是说存储事务的数目为交错版本的4倍,并且CPU使用的预读策略不会起作用。
我们再看一下GPU版本的代码:

__global__ void add_non_test_interleaved_kernel(NON_INTERLEAVED_T * const gpu_dest_ptr, const NON_INTERLEAVED_T * const gpu_src_ptr, const int iter, const int num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr->a[tid] += gpu_src_ptr->a[tid];
            gpu_dest_ptr->b[tid] += gpu_src_ptr->b[tid];
            gpu_dest_ptr->c[tid] += gpu_src_ptr->c[tid];
            gpu_dest_ptr->d[tid] += gpu_src_ptr->d[tid];
        }
    }
} 

__global__ void add_test_interleaved_kernel(INTERLEAVED_T * const gpu_dest_ptr, const INTERLEAVED_T * const gpu_src_ptr, const int iter, const num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr[tid].a += gpu_src_ptr[tid].a;
            gpu_dest_ptr[tid].b += gpu_src_ptr[tid].b;
            gpu_dest_ptr[tid].c += gpu_src_ptr[tid].c;
            gpu_dest_ptr[tid].d += gpu_src_ptr[tid].d;
        }
    }
}
   这两个函数与CPU版本的类似,不过在GPU上,每个线程迭代iter计算一个元素。利用GPU系统统计分别统计这两个函数运行的时间,可以发现与CPU版本不同,在GPU上
    “交错内存访问方式的执行时间比非交错内存访问方式的时间多出3~4倍。”

因为在GPU上,相比于交错的访问方式,非交错访问使我们得到了4个合并的访问(所有线程访问连续的对齐的内存块),保持全局内存带宽最优。因此,在使用GPU全局内存时,我们要注意连续合并的内存访问方式,从而拥有全局内存带宽最优化。

相关文章

  • CUDA笔记(二)内存操作

    这两个加和函数明显类似,每个函数都对列表中的所有元素迭代iter次,从源数据结构中读取一个值,然后加和到目标数据结...

  • CUDA基本语法

    示例:向量加的CUDA实现 这里通过向量加计算这个例子介绍CUDA的基本知识,主要包括内存操作、核函数(kerne...

  • 【CUDA】学习记录(2)-编程模型

    CUDA编程结构 CUDA显存管理 分配显存 传输数据 Example: 返回类型 CUDA内存模型 线程 核函数...

  • 集群的使用

    1.查看内存 df -h 2.cuda 加载 用模型的方式 model load cuda91/tookit/.....

  • CUDA——内存层级

    全局内存 global memory 独立于GPU核心的硬件RAM GPU绝大多数内存空间都是全局内存 全局内存的...

  • CUDA与OpenGL互操作之纹理映射

    引言 在《CUDA与OpenGL互操作之顶点缓存映射》中讲解了如何使用CUDA操作OpenGL中的顶点缓存数据,从...

  • cuda全局内存中的“分区冲突”

    CUDA将GPU的内存模型暴露给开发人员,包括全局内存、常量/纹理内存、共享内存、本地内存、寄存器,不同类型内存的...

  • CUDA C Programming Guide

    本篇文章作为学习CUDA官方文档的学习笔记。CUDA C Programming Guide 1. Program...

  • ARM平台安装cuda

    对于ARMv8架构的操作系统,cuda最低版本为cuda 6.5安装步骤如下:1、下载cuda-toolkit-6...

  • PHP内存管理 垃圾回收

    本文是php-internals的读书笔记. 概述1) 操作系统直接管理着内存,所以操作系统也需要进行内存管理,计...

网友评论

      本文标题:CUDA笔记(二)内存操作

      本文链接:https://www.haomeiwen.com/subject/hbktlktx.html