美文网首页
通过剪枝和量化压缩Transformer

通过剪枝和量化压缩Transformer

作者: 静一下1 | 来源:发表于2021-03-11 22:42 被阅读0次

    量化

    使用了两类量化方法,一类是K-Means的量化方法,方法如下,简单而言就是在最小值和最大值之间设立K个(这个K的大小表明了量化的精度,一般而言K越大量化精度越高,对应到量化的bit位也越高)centroids,然后将参数中的每一个权值就近到其中一个centroid,在具体存储的时候可以只使用每一个centroid的index

    第二类方法是binary的方法,简单一点的方法是直接按符号进行二值化,文中对此作了进一步改进,将其使用两个值的均值进行替换,取名为BS-Flexible方法


    剪枝

    文中使用的是iterative magnitude pruning方法,这个方法特别简单,将权值小于某一个阈值的参数全部用零替换


    结果

    量化方面4bit的量化效果依然足够好,压缩比能够达到5倍多,剪枝方面效果相对有限,文中解释说有一些超参需要tuning(比如阈值),二值化的方法如果使用到整个transformer则效果比较差,但是如果能够只在self-attention上进行使用,则效果就会非常好(对应到BS-Flexible 1-bit att-quantization方法)

    在self-attention的权值可视化方面,可以看到原始的和8bit,以及4bit的矩阵非常相似,并且量化能够使得参数矩阵更加的锐化

    总结:在对transformer进行4bit量化,以及self-attention进行二值化后,依然能够取得相对较好的效果,说明transformer内部确实存在一些参数冗余的情况,这也给模型压缩带来了空间。

    https://my.oschina.net/u/4594481/blog/4970442

    相关文章

      网友评论

          本文标题:通过剪枝和量化压缩Transformer

          本文链接:https://www.haomeiwen.com/subject/reooqltx.html