XML

作者: nonstopfor | 来源:发表于2020-07-29 09:24 被阅读0次

Cross-lingual Language Model Pretraining

主要贡献:align distributions of sentences in a completely unsupervised way
如何解决多语言的tokenize以及词表问题?=》Byte Pair Encoding(BPE)

Causal Language Modeling(CLM): 生成一个词时考虑之前所有词,例如GPT2,不需要平行语料
Masked Language Modeling(MLM): 使用mask方式,如Bert,不需要平行语料
Translation Language Modeling(TLM): 有不同语种的平行语料,训练时两句一起输入,并进行随机mask

相关文章

网友评论

      本文标题:XML

      本文链接:https://www.haomeiwen.com/subject/grocrktx.html