美文网首页
albert-相对于bert的改进点

albert-相对于bert的改进点

作者: 张知道q | 来源:发表于2021-01-17 14:49 被阅读0次

    参考文献:

    https://zhuanlan.zhihu.com/p/87562926

    https://blog.csdn.net/weixin_37947156/article/details/101529943

    bert参数太大怎么办:

    1、词表大小是V,向量维度是H,假定H维度较大,而V本身又非常大,V*H就非常非常大(占了整个模型20%的参数),需要巨额的参数量,而实际上,H只是一个查表操作,H之后才是NN的学习与上下文相关的表示,所以这里可以将V*H拆成 V*E + E*H,E的大小可以远远小于H,这样的话,就是先降维再升维,类似于一种矩阵分解的感觉,可以有效解决参数量过大的问题。

    2、一说到参数量大,势必会有共享参数的想法,attention层和ffn层整个多头占了80%的参数,共享参数的话,在这个过程中其实就两点,一个是self-attention层的共享,另一个是feed forward的共享,实验表明,可视化之后,发现各个层的attention layer都长的差不多,所以可以将各个层的encoder进行共享,即共享self attention和feed forward,但是这样的好处:参数量极速变小,且层数可以无限叠加,不影响参数量,但是影响infer。效果的降低主要是来源于FFN的共享,而不是attention layer,参数变少之后可以对模型变宽变深,强化效果。

    3、NSP不太行了怎么办,预测的主题性大于句子的连续性。那就改成SOP,调换两个句子的顺序作为负样本,让学习难度变难,且能够学习到句子的连续性信息。

    4、dropout没啥用,反而占用了1/3到1/2的临时变量,浪费参数,因为MLM这个学习任务实在是太难了,所以去掉dropout反而让模型效果提高了。其实前两个参数共享的改动一定意义上是一种正则化的意思,可以提高泛化。

    相关文章

      网友评论

          本文标题:albert-相对于bert的改进点

          本文链接:https://www.haomeiwen.com/subject/ukuvaktx.html