GPU编程三瞥

作者: 飞多多 | 来源:发表于2019-09-28 21:05 被阅读0次

GPU编程三瞥
GPU编程再瞥
GPU编程终瞥
GPU编程一瞥
GPU 图形绘制管线
GPU 编程：CUDA 和 Python 中的实际示例
GPU 编程入门到精通（四）之 GPU 程序优化
GPU 编程入门到精通（五）之 GPU 程序优化进阶
GPU 编程入门到精通（三）之第一个 GPU 程序
GPU 编程入门到精通（二）之运行第一个程序

基于前两篇博客，其实我们对gpu编程已经掌握得差不多了，在这第三篇博客中，最要是两个例子，一个是光线追踪，一个是热传导的模拟。进一步介绍两中内存，constant memory和 texture memory。

光线追踪

光线追踪最是求三维场景在二维平面的投影，追踪三维物体的光线在平面的位置。这里我们介绍最简单的方法。

从成像平面的每一个像素出发，追踪它最终击中的三维物体的，然后根据击中点来绘制像素，这样遍历整个成像平面后，我们就得到了三维空间的成像图。原理如下图所示：

ray_tracer_principle.png

程序如下：

#include&lt;opencv2/highgui/highgui.hpp&gt;
#include&lt;memory&gt;
#include "cuda.h"
#include&lt;iostream&gt;
#include&lt;memory&gt;

using namespace std;
#define DIM 1024
#define INF 2e10f
#define SPHERE 20
#define rnd(x) (x*rand()/RAND_MAX)

class Sphere{
public:
    double r, g, b;
    double x, y, z, radius;
    __device__ float hit(double ox, double oy, double *n){
        double dx = ox-x;
        double dy = oy-y;
        double xy_2 = dx*dx + dy*dy;
        double rad_2 = radius*radius;
        if( xy_2 &lt; radius*radius){
            float dz = sqrtf(rad_2 - xy_2);
            *n = dz/radius;
            return dz+z;
        }
        return -INF;
    }
};

__constant__ Sphere s[SPHERE];
__global__ void kernel(unsigned char *ptrs){
    int x =threadIdx.x + blockDim.x * blockIdx.x;
    int y =threadIdx.y + blockDim.y * blockIdx.y;
    int offset = x + y*blockDim.x * gridDim.x;

    double ox= x-DIM/2.0;
    double oy= y-DIM/2.0;
    double r=0, g=0, b=0; 
    double maxz = -INF;
    for(int i=0; i&lt;SPHERE; i++){
        double n;
        double t = s[i].hit(ox, oy, &amp;n);
        //if current hit is more closer to camera than last hit, use current data
        if( t&gt;maxz){
            float fscale = n;
            r = s[i].r * fscale;
            g = s[i].g * fscale;
            b = s[i].b * fscale;
            maxz = t;//
        }
    }
    ptrs[4 * offset + 0] = int(r*255);
    ptrs[4 * offset + 1] = int(g*255);
    ptrs[4 * offset + 2] = int(b*255);
    ptrs[4 * offset + 3] = 255;
}

int main(){
    cudaEvent_t start, stop;
    cudaEventCreate(&amp;start);
    cudaEventCreate(&amp;stop);
    cudaEventRecord(start, 0);
    cv::Mat_&lt;cv::Vec3b&gt; img(DIM,DIM);
    unsigned char ptrs[4*DIM*DIM];
    unsigned char *dev_ptrs;
    Sphere temp_s[SPHERE];

    srand((unsigned) time(0));
    for(int i=0; i&lt;SPHERE; i++){
        temp_s[i].r = rnd(1.0f);
        temp_s[i].g = rnd(1.0f);
        temp_s[i].b = rnd(1.0f);
        temp_s[i].x = rnd(1000.0f)-500;
        temp_s[i].y = rnd(1000.0f)-500;
        temp_s[i].z = rnd(1000.0f)-500;
        temp_s[i].radius = rnd(100.0f) + 20;
    }
    cudaMalloc((void**)&amp;dev_ptrs, 4*DIM*DIM*sizeof(unsigned char));
    //cudaMalloc((void**)&amp;s, SPHERE*sizeof(Sphere));
    //cudaMemcpy(s, temp_s, SPHERE*sizeof(Sphere), cudaMemcpyHostToDevice);
    cudaMemcpyToSymbol(s, temp_s, SPHERE * sizeof(Sphere));

    dim3 blocks(32, 32);
    dim3 threads(32, 32);
    kernel&lt;&lt;&lt;blocks, threads&gt;&gt;&gt;(dev_ptrs);
    cudaMemcpy(ptrs, dev_ptrs, 4*DIM*DIM*sizeof(unsigned char), cudaMemcpyDeviceToHost);

    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float mytime;
    cudaEventElapsedTime(&amp;mytime, start, stop);
    cout&lt;&lt;"performace:\n"&lt;&lt;mytime&lt;&lt;endl;

    cudaEventDestroy(start);
    cudaEventDestroy(stop);
    cudaFree(dev_ptrs);
    cudaFree(s);
    for(int y=0; y&lt;img.rows; y++){
        for(int x=0; x&lt;img.cols; x++){
            for(int ch=0; ch&lt;3; ch++){
                img.at&lt;cv::Vec3b&gt;(x, y)[ch] = ptrs[ 4*(x+y*DIM) + ch];
            }
        }
    }
    cv::imshow("show", img);
    cv::waitKey(0);
    return 0;
}

程序说明：

成像平面是x-y平面。
我们先声明了一个球类，这个类包含了球的空间坐标和半径，以及其颜色，另外我们定义了一个击中函数，来测试某个像素点发出的“逆光线”是否击中了球体。n是击中点离球心平面的一个度量，n越大，我们击中的位置越靠近球的投影中心，主要用来确定成像片面的像素的颜色明暗程度。返回值是击中点与成像平面的距离的第一度量。越大的话就越靠近成像平面，当一条“逆光线”击中不只一个球体的时候，我们应该选择最前面的点（最近的那个点）来绘制。未击中任何球，返回负无穷大。
kernel函数中，if( t>maxz) 用来判定每次绘制都是最前的像素。其他的地方与之前的程序中大同小异。

constant Sphere s[SPHERE];声明一个常显存。
cudaMemcpyToSymbol(s, temp_s, SPHERE *sizeof(Sphere));是将内存中的数据拷贝至显存中。然后是计算。

本程序中多了cudaEvent_t这个变量，从名字可以看出，这是一个cuda的事件类型，我们这里主要用来测算cuda的运行性能。使用也很简单。
最终，在笔者的电脑是，采用constant类型的程序是不采用的程序耗时的7/10。这里不明显时候因为这里的constant类数据不大，当数据较大时，长内存的优势就会明显得多。

raay_tracer.png

热传递的模拟

热传递的模拟过成，我们在一幅图上，每个像素点只考虑它上下左右四个位置的强度，然后采用公式：

$C_{n+1}=T_n+\sum_{neighbor} k \cdot(T_{neighbor}-T_n)$

必须说明的是，这不是一个准确的热传递公式，甚至算不上是近似公式。其中的k表征传递的速度。程序如下：

#include&lt;opencv2/core.hpp&gt;
#include&lt;opencv2/highgui/highgui.hpp&gt;
#include&lt;memory&gt;
#include "cuda.h"
#include&lt;iostream&gt;
#include&lt;memory&gt;

using namespace std;
#define DIM 1024
//系数应当小于0.25
#define SPEED 0.25

__global__ void mycopy(const float *src, float *dest){
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;
    if( src[offset]!=0) dest[offset] = src[offset];
    //dest[offset] = src[offset];
}

__global__ void kernel(float *optrs, const float *iptrs, int tick){
    int x = threadIdx.x + blockIdx.x * blockDim.x;
    int y = threadIdx.y + blockIdx.y * blockDim.y;
    int offset = x + y * blockDim.x * gridDim.x;

    int right = offset + 1;
    int left = offset - 1;
    if(x==DIM-1) right--;
    if(x==0) left++;

    int top = offset - DIM;
    int down = offset + DIM;
    if(y==DIM-1) down -= DIM;
    if(y==0) top += DIM;

    optrs[offset] = iptrs[offset] + SPEED*(iptrs[right] + iptrs[left] + iptrs[top] + iptrs[down] - 4*iptrs[offset] );
}

int main(){
    cudaEvent_t start, stop;
    cudaEventCreate(&amp;start);
    cudaEventCreate(&amp;stop);
    cudaEventRecord(start, 0);

    cv::Mat_&lt;cv::Vec3b&gt; img(DIM,DIM);
    float img_ptrs[DIM*DIM]={0};
    float *out_ptr;
    float *const_ptr;
    float *in_ptr;
    dim3 blocks(32, 32);
    dim3 threads(32, 32);

    cudaMalloc((void**)&amp;out_ptr, DIM*DIM*sizeof(float));
    cudaMalloc((void**)&amp;const_ptr, DIM*DIM*sizeof(float));
    cudaMalloc((void**)&amp;in_ptr, DIM*DIM*sizeof(float));
    
    for(int i=0; i&lt;DIM; i++){
        for(int j=0; j&lt;DIM; j++){
            if(i&gt;110 &amp;&amp; i&lt;210 &amp;&amp; j&gt;110 &amp;&amp; j&lt;210)
                img_ptrs[i*DIM + j] = 255;
            if(i&gt;210 &amp;&amp; i&lt;310 &amp;&amp; j&gt;210 &amp;&amp; j&lt;310)
                img_ptrs[i*DIM + j] = 255;
        }
    }

    cudaMemcpy( const_ptr, img_ptrs, DIM*DIM*sizeof(float), cudaMemcpyHostToDevice );

    for(int i=0; i&lt;DIM*DIM; i++)
        img_ptrs[i]=70;
    cudaMemcpy( in_ptr, img_ptrs, DIM*DIM*sizeof(float), cudaMemcpyHostToDevice );

    for(int it=0; it&lt;9000; it++){
        mycopy&lt;&lt;&lt;blocks,threads&gt;&gt;&gt;(const_ptr, in_ptr);

        kernel&lt;&lt;&lt;blocks, threads&gt;&gt;&gt;(out_ptr, in_ptr, it);
        swap(in_ptr, out_ptr);
        //cudaMemcpy(img_ptrs, in_ptr, DIM*DIM*sizeof(float), cudaMemcpyDeviceToHost);
        cudaMemcpy(img_ptrs, in_ptr, DIM*DIM*sizeof(float), cudaMemcpyDeviceToHost);

        cout&lt;&lt;it&lt;&lt;" pixel(215,205): "&lt;&lt;img_ptrs[215 + 205*DIM]&lt;&lt;endl;
        for(int i=0; i&lt; img.rows; i++){
            for(int j=0; j&lt;img.cols; j++){
                for(int ch=0; ch&lt;3; ch++)
                    img.at&lt;cv::Vec3b&gt;(i,j)[ch]=img_ptrs[ j*DIM+i];
            }
        }
        if(it == 8999)
            cv::waitKey(0);
        cv::imshow("test", img);
        cv::waitKey(1);
    }

    cudaEventRecord(stop, 0);
    cudaEventSynchronize(stop);
    float mytime;
    cudaEventElapsedTime(&amp;mytime, start, stop);
    cout&lt;&lt;"performace:\n"&lt;&lt;mytime&lt;&lt;endl;

    cudaEventDestroy(start);
    cudaEventDestroy(stop);
    cudaFree(in_ptr);
    cudaFree(out_ptr);
    cudaFree(const_ptr);

    return 0;
}

程序说明：

特别强调一点，程序中SPEED应当是大于零，小于0.25的参数。关于这一点，笔者之前没注意到，随便写的参数，导致跑出的程序结果不符合预期。下面是运行的结果：

heat_emulator.png

GPU编程三瞥
基于前两篇博客，其实我们对gpu编程已经掌握得差不多了，在这第三篇博客中，最要是两个例子，一个是光线追踪，一个是热...
GPU编程再瞥
在上篇文章中，我们基本了解了gpu编程的原理，并简单的绘制了一个分形几何。但是前文的编程都是基于多block单th...
GPU编程终瞥
到此，经由前三篇文章的说明，我们对gpu编程应该有了很大的认知，基本上可以完成一些简答的开发小任务了，其实cuda...
GPU编程一瞥
之前因为SLAM中计算描述子的缘故，想到通过GPU加速编程来提高SIFT描述子的计算速度，从而达到实时的效果。于是...
GPU 图形绘制管线
参考自《GPU 编程与CG 语言之阳春白雪下里巴人》图形绘制管线描述 GPU 渲染流程，即"给定视点、三维物体...
GPU 编程：CUDA 和 Python 中的实际示例
什么是 GPU 编程？ GPU 计算是使用图形处理单元 (graphics processing unit) 来执...
GPU 编程入门到精通（四）之 GPU 程序优化
0. 目录 GPU 编程入门到精通（一）之 CUDA 环境安装 GPU 编程入门到精通（二）之运行第一个程序 G...
GPU 编程入门到精通（五）之 GPU 程序优化进阶
0. 目录 GPU 编程入门到精通（一）之 CUDA 环境安装 GPU 编程入门到精通（二）之运行第一个程序 G...
GPU 编程入门到精通（三）之第一个 GPU 程序
0. 目录 GPU 编程入门到精通（一）之 CUDA 环境安装 GPU 编程入门到精通（二）之运行第一个程序 G...
GPU 编程入门到精通（二）之运行第一个程序
0. 目录 GPU 编程入门到精通（一）之 CUDA 环境安装 GPU 编程入门到精通（二）之运行第一个程序 G...