优化程序性能

作者: Android征途 | 来源:发表于2019-03-21 15:32 被阅读6次

    优化程序性能

    编写高效程序需要做到如下几点
    1.选择适当的算法和数据结构。

    2.编写出编译器能够有效优化以转换成高效可执行代码的源代码(理解编译器的能力和局限性尤为重要)。

    3.针对运算量特别大的计算,将一个任务分成多个部分,并行的去计算。
    程序示例

      typedef long data_t
    
    typedef struct {
        long len;
        data_t *date
    }ver_rec,*ver_ptr;
    
    ver_ptr new(long len) {
        ver_ptr result = (vec_ptr)malloc(sizeof(ver_rec));
    
           data_t *data = NULL;
    
        if (!result) {
            return NULL;
        }
    
        result->len = len;
    
        if(len > 0) {
            data = (data_t *)calloc(len, sizeof(data_t));
            if(!data) {
                free((void *)result);
                return NULL;
            }
        }
    
        result->data = data;
        return result;
    }
    
    int get_vec_element(ver_ptr v, long index, data_t *dest) {
        if(index < 0 || index >=v->len) return 0 ;
    
        *dest = v->data[index];
    
           return 1;
    }
    
    long ver_length(vec_ptr v) {
        return v->len;
    }
    
    void combine1(vec_ptr v, data_t *dest) {
        long i;
        *dest = 0;
        for(int i =0; i< vec_length(v); i++) {
            data_t val;
            get_vec_element(v,i,&val);
            *dest = *desc + val;
        }
    }
    

    上面代码主要是给出生成向量、访问元素、计算长度的一些方法。我们通过将一个向量中所有的元素合并成一个值得例子,来说明如果做程序优化。

    消除循环的低效率

    通过combine1函数我们可以看到,循环每个元素时,都会调用vec_length()方法,我们知道向量的长度不会随着循环的进行而改变,我们只需要计算一次向量的长度。

    void combine2(vec_ptr v, data_t *dest) {
        long i;
        long length = vec_length(v);
           *dest = 0;
        for(int i =0; i< length; i++) {
            data_t val;
            get_vec_element(v,i,&val);
            *dest = *desc + val;
        }
    }
    

    这种优化称为代码移动(code motion)。执行多次,但不会改变的计算,一般用代码移动来优化

    减少过程调用

    太多的过程调用会带来性能的开销,从combine我们可以看到,每次循环都会调用get_vec_element方法,我们可以用下面的方法来优化

    void combine3(vec_ptr v, data_t *dest) {
        long i;
        long length = vec_length(v);
        data_t *data = get_vec_start(v);
           *dest = 0;
         for(int i =0; i< length; i++) {
            *dest = *desc + data[i];
        }
    }
    

    消除不必要的内存引用

    我们看到每次循环迭代时,累积变量的值都要从内存中读出在写入到内存中,每次都要访问两次*dest。我们可以建立一个临时变量,每次循环累积的值都用它来存储,循环结束时,再把它复制到内存中。

    void combine4(vec_ptr v, data_t *dest) {
        long i;
        long length = vec_length(v);
        data_t *data = get_vec_start(v);
        data_t acc = 0;
           *dest = 0;
         for(int i =0; i< length; i++) {
            acc = acc + data[i];
        }
        *dest = acc;
    }
    

    通过上面的优化,我们将每次迭代的内存操作从两次读和一次写减少到只需要一次读

    循环展开

    循环展开是一种程序变换,通过增加每次迭代程序计算的数量,减少循环的迭代次数。循环展开能够从两个方面改进程序的性能

    1.减少了不直接有助于程序结果的操作的数量,列如循环索引计算和条件分支。
    2.提供了一些方法,可以进一步变化代码,减少整个计算中关键路径上的操作数量。

    void combine5(vec_ptr v, data_t *dest) {
        long i;
           long length = vec_length(v);
           long limit = length - 1;
           data_t *data = get_vec_start(v);
    data_t acc = 0;
     for(int i =0; i&lt; limit; i+=2) {
        acc = acc + data[i] + data[i+1];
    }
    
    for(; i &lt; length; i++) {
        acc = acc + data[i]
    }
    *dest = acc;
    }
    

    提高并行性

    多个累积变量
    对于一个可结合和可变换的合并运算来说,比如说整数加法或乘法,我们可以通过将一组合并分割成两个或更多部分。

    void combine6(vec_ptr v, data_t *dest) {
        long i;
        long length = vec_length(v);
        long limit = length - 1;
        data_t *data = get_vec_start(v);
    
        data_t acc0 = 0;
        data_t acc1 = 0;
        for(int i =0; i< limit; i+=2) {
            acc0 = acc0 + data[i];
            acc1 = acc1 + data[i+1];
        }
    
    for(; i < length; i++) {
        acc0 = acc0 + data[i]
    }
    *dest = acc0 + acc1;
    }
    

    重新结合变换

    void combine7(vec_ptr v, data_t *dest) {
        long i;
           long length = vec_length(v);
           long limit = length - 1;
           data_t *data = get_vec_start(v);
    
           data_t acc = 0;
         for(int i =0; i< limit; i+=2) {
            acc = acc + (data[i] + data[i+1]);
        }
    
        for(; i < length; i++) {
            acc = acc + data[i]
        }
        *dest = acc;
    }
    

    一些限制因素

    寄存器溢出
    如果我们的并行p超过了寄存器的数量,那么编译器就会溢出,将某些临时值存放到内存中,通常是在运行时堆栈上分配空间。

    了解更多Android知识,或者获取相关资料请加入Android技术开发交流2群:935654177。本群可免费获取Gradle,RxJava,小程序,Hybrid,移动架构,NDK,React Native,性能优化等技术教程!

    相关文章

      网友评论

        本文标题:优化程序性能

        本文链接:https://www.haomeiwen.com/subject/xexcvqtx.html