开个坑,打算收罗一波自己看过的自然语言处理经典论文(Natural Language Process, 简称NLP)。这几年来,NLP领域呈爆炸式增长,论文数量猛涨,其中鱼龙混杂,我自己把这种现象称作论文通胀“paper inflation“。抵御论文通胀的最好办法当然就是投入时间到经典论文了 —— 也就是经过时间考验的、对这个领域又基础性贡献的论文。
这个坑,我打算慢慢填,毕竟手头还有正在进行的项目,多多包涵哈。以下是我认为的经典NLP论文
-
Neural Machine Translation of Rare Words with Subword Units 几乎任何深度学习NLP模型都会用到分词器(tokeniser),而sentencepiece是非常经典的分词器。sentencepiece的原理是找出语料库中出现最频繁的字节对,并且将它们合并成一个新的词单元(也就是常说的BPE,byte-pair-encoding)。它能够有效地处理那些不在词汇表中的单词(比如罕见的单词、品牌名、人名等)。Google有一个漂亮的代码实现在这里。
-
Zero-Shot Text-to-Image Generation 如何使用文本自动生成图片?OpenAI的这篇论文算是奠基了跨模态研究的热潮,这也是著名的DALLE系统背后的论文。在这篇文章中,我个人觉得最震撼的点在于他们把图片也进行了“分词”。每一个小图块被映射成一个符号,相当于自然语言处理中的一个词单元,我们就管它叫做图单元好了(image tokens)。整个图库包含8192个这样的图单元,相当于一个8192的词表。这样文本生成图片的任务就被巧妙地转化为从词单元到图单元的翻译任务,整个问题变为一个Seq2Seq问题!
网友评论