GLU

作者: 茶豚 | 来源:发表于2019-08-05 15:52 被阅读0次

    GLU : Gated Linear Units

    公式:h(X)=(X∗W+b)⊗σ(X∗V+c)

    输入X,W, b, V, c是学到的参数

    把sigmoid(X*V+c) 和 X*W+b对应相乘

    出自论文:Language Modeling with Gated Convolutional Networks

    https://arxiv.org/abs/1612.08083v1

    GLU用在CNN中,论文显示效果比LSTM好

    GLU

    PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标,PPL=n可以直观地理解为,在模型生成一句话时下一个词有n个合理的选择,可选词数越少,我们认为模型越准确。这样也能解释,为什么PPL越小,模型越好

    Results

    论文模型结构如下,详细内容见论文

    model architecture

    相关文章

      网友评论

          本文标题:GLU

          本文链接:https://www.haomeiwen.com/subject/ilpmdctx.html