第一遍过论文
1.1 论文类型
这是一篇提出新模型,并且给出验证和分析的论文
1.2 论文领域
这篇论文研究的是Distributional Representation,貌似还是个文档级别的向量表示。并且使用双语语料库生成的。
1.3 假设正确性讨论
这篇文章的基本假设是使用连续空间的向量来表示离散的物体。并且认为句子级别的双语语料库能够互相提供支撑,为了生成更高级别的文本向量做支撑。
基本假设
更具体一点的核心假设是:如果我们有双语的语料库(A语言和B语言,句子级别的),那么我们有转换函数f和g将A和B的句子转换成向量,句子为s_a,s_b,那么经过转换之后这俩向量应该是完全一样,不是完全一样也最起码是及其接近才对。很不错的假设,这样的话,我们就可以利用句子级别和文章级别的目标损失函数进行学习了。
1.4 主要贡献
1.模型对语料库门槛要求相对较低。传统的用来生成整篇文章的向量的方法,通常是基于依赖解析树哇,什么什么的。这样的要求说来简单,但是对于一些没有大量标注的语言来说,依赖解析都比较难搞,更别说下行任务生成整篇文章的向量啦。
2.模型能够有效的解决higher level embeddings
的问题。不仅仅是在sentence level
上能够给出结果,在document level
上也能直接应用。
第二遍过论文
还是那句话。第二遍过论文重点应该放在论文的模型上。
本文的模型其实非常简单。为了保险起见,我们先来回顾一下本文的基本假设。本文认为啊,每个句子的语义都应该有自己的一个embeddings。这个embedding呢明显是和语言无关的。之前有很多人在这方面做过研究,其中就包括本文选的baseline.这里呢我也就不剧透啦。简单说明一下这个框架:有了前面的假设,我们推理一下就能得到,如果真的是语义有自己的embeddings的话那么,每个不同的语言表示这句话,应该在向量空间上是同一个向量,最起码也得是相近的向量。所以我们模型的过程就是,对平行语料库的两个对齐的句子,首先分别计算一下句子的embeddings,这个时候使用最简单的求和啦,或者n-gram都行吧。然后这两个embedding的差作为损失函数,利用averaged perceptron
学习器进行参数的调整。注意,最开始的时候理解起来有点困难在于没有意识到这里的词向量也是单独训练出来的
第三遍过论文
3.1 数据准备
本文使用了两个语料库。Europarl v7
以及TED
演讲。前者好在有健全的baseline可以参考,后者好在有大量的平行语言可以做多语言学习的探究。此外该论文还采用了Reuters的语料库作为测试集。
测试语料库
3.2 评价标准
分类问题嘛,最直观最有说服力的结果就是分类的准确率啦。在该论文中正是采用了准确率作为评价标准。在TED
实验上还采用了F1
作为评价指标。
3.3 baseline
在Europarl
的实验上,该论文直接拿了以前的结果包括I-Matrix
,glossed word
,MT
这样几个模型。
在TED
的实验上,因为之前没有人用过这个语料库来搞分类的实验,所以作者自己在这个数据上重现了一个MT
模型作为基准线。
3.4 实验结果
分析一下实验结果,在Europarl
实验中可以看出分类结果有很大的提高,证明了这种双语学习的方式确实是能够学习共同的语义embeddings
的。并且增加新的语言将会给原来的效果带来显著的提升。
在TED
的试验中明显是基准线MT
在绝大多数的语言上都表现最好,但是呢作者认为之所以表现好是因为他作弊,用了更多的信息才构建了MT
模型的,而我们的模型只用到了最简单的双语语料库,其他的信息都没有用到,所以表现差一点情有可原。
作者还拿模型和Sena生成的词向量做了比较。在这里发现人家Sena 虽然用的数据量比我们大很多,但是我们的结果一点都不差哇。
和sena 比较
最后,作者还进行了一步探索,就是发现训练出来的词向量,具有双语聚类的效果。就像我们的普通词向量能够相近的词自动的聚成一堆一样,我们发现该论文生成的向量首先是把所有语言的单词都放在了同一个语料库中,然后发现意思相近的词聚拢在了一起。真是有趣的发现,不知道能不能借鉴到翻译中去。
总结
这篇论文看的真是舒畅哇,难得一篇熟悉的领域的论文。在这里学到的东西是怎么学习language independent
的词义向量,这一点是很有意思的。
网友评论