-
还是无监督机器翻译的那个老哥发的,用同样的方法已经发了ICLR18,ICLR19,和EMNLP19的best paper了。
-
作者说如果不进行
pooling
的话,模型很快就变成了复制原始的输入。
-
训练的时候竟然调了
beta1
原来是0.9
,这个参数用于控制动量和当前梯度的比重。
-
损失函数,
d
是一个decoder
根据hidden state
和属性集合y
生成句子,Pd
是根据hidden state
和属性y
生成句子x
的概率,可是看到为了让每一步都是可微分的,所以生成的时候用的是采样多项式分布 并不是beam search
,或者gready search
,目标是增加多样性,而不简单的是增加bleu
-
并且作者也说了不给
decoder时候softmax
加温度也会造成性能的下降。
-
感觉使用
bpe
也是他的一个成功的因素
-
衡量流畅度是使用
kneser-Ney n-gram
-
完全和无监督机器翻译那一片论文是一样的了,使用属性的
average embedding
进行初始化,
网友评论