GLU : Gated Linear Units
公式:h(X)=(X∗W+b)⊗σ(X∗V+c)
输入X,W, b, V, c是学到的参数
把sigmoid(X*V+c) 和 X*W+b对应相乘
出自论文:Language Modeling with Gated Convolutional Networks
https://arxiv.org/abs/1612.08083v1
GLU用在CNN中,论文显示效果比LSTM好

PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标,PPL=n可以直观地理解为,在模型生成一句话时下一个词有n个合理的选择,可选词数越少,我们认为模型越准确。这样也能解释,为什么PPL越小,模型越好

论文模型结构如下,详细内容见论文

网友评论