- 只能说太牛逼了
- 为所有的语言使用同一个
bpe
词表
- 学习
bpe
也是有窍门的就是要按照语料数量进行加温度的多项式分布进行采样,温度是0.5
,为了避免bpe
中语料过的语言占的比重过大。
- 改进就是原来仅仅是使用无监督方法学出来的
embedding
来学习词表,现在是直接初始化encoder
了和decoder
,初始化的方法就是主要是下面的监督预训练任务管用。
- 而且作者的预训练方法不仅仅在无监督机器翻译德英上超过
sota 9
个点,而且在有监督机器翻译上提高了4
个belu
是Romanian-English
的sota
.
网友评论