Multi-lingual Models for Compost

Multi-lingual Models for Compost

作者: 社交达人叔本华 | 来源:发表于2018-08-11 21:59 被阅读1次

Multi-lingual Models for Compost
家庭自制腐殖土（转）
docker私有仓库Harbor安装
看《Peppa Pig》学英语（三十九）
宏观经济学模型
Pytorch Save & load the model 2
什么样的软件架构是好的？
怎么样的软件架构算好的？
models
models

第一遍过论文

1.1 论文类型

这是一篇提出新模型，并且给出验证和分析的论文

1.2 论文领域

这篇论文研究的是Distributional Representation，貌似还是个文档级别的向量表示。并且使用双语语料库生成的。

1.3 假设正确性讨论

这篇文章的基本假设是使用连续空间的向量来表示离散的物体。并且认为句子级别的双语语料库能够互相提供支撑，为了生成更高级别的文本向量做支撑。

基本假设

更具体一点的核心假设是：如果我们有双语的语料库（A语言和B语言，句子级别的），那么我们有转换函数 $f$ 和 $g$ 将A和B的句子转换成向量，句子为 $s_a,s_b$ ,那么经过转换之后这俩向量应该是完全一样，不是完全一样也最起码是及其接近才对。很不错的假设，这样的话，我们就可以利用句子级别和文章级别的目标损失函数进行学习了。

1.4 主要贡献

1.模型对语料库门槛要求相对较低。传统的用来生成整篇文章的向量的方法，通常是基于依赖解析树哇，什么什么的。这样的要求说来简单，但是对于一些没有大量标注的语言来说，依赖解析都比较难搞，更别说下行任务生成整篇文章的向量啦。

2.模型能够有效的解决higher level embeddings的问题。不仅仅是在sentence level上能够给出结果，在document level上也能直接应用。

第二遍过论文

还是那句话。第二遍过论文重点应该放在论文的模型上。

本文的模型其实非常简单。为了保险起见，我们先来回顾一下本文的基本假设。本文认为啊，每个句子的语义都应该有自己的一个embeddings。这个embedding呢明显是和语言无关的。之前有很多人在这方面做过研究，其中就包括本文选的baseline.这里呢我也就不剧透啦。简单说明一下这个框架：有了前面的假设，我们推理一下就能得到，如果真的是语义有自己的embeddings的话那么，每个不同的语言表示这句话，应该在向量空间上是同一个向量，最起码也得是相近的向量。所以我们模型的过程就是，对平行语料库的两个对齐的句子，首先分别计算一下句子的embeddings，这个时候使用最简单的求和啦，或者n-gram都行吧。然后这两个embedding的差作为损失函数，利用averaged perceptron学习器进行参数的调整。注意，最开始的时候理解起来有点困难在于没有意识到这里的词向量也是单独训练出来的

模型基本框架

第三遍过论文

3.1 数据准备

本文使用了两个语料库。Europarl v7以及TED演讲。前者好在有健全的baseline可以参考，后者好在有大量的平行语言可以做多语言学习的探究。此外该论文还采用了Reuters的语料库作为测试集。

语料库

测试语料库

3.2 评价标准

分类问题嘛，最直观最有说服力的结果就是分类的准确率啦。在该论文中正是采用了准确率作为评价标准。在TED实验上还采用了F1作为评价指标。

3.3 baseline

在Europarl的实验上，该论文直接拿了以前的结果包括I-Matrix,glossed word,MT这样几个模型。

baseline

在TED的实验上，因为之前没有人用过这个语料库来搞分类的实验，所以作者自己在这个数据上重现了一个MT模型作为基准线。

3.4 实验结果

分析一下实验结果，在Europarl实验中可以看出分类结果有很大的提高，证明了这种双语学习的方式确实是能够学习共同的语义embeddings的。并且增加新的语言将会给原来的效果带来显著的提升。

Europarl实验结果

在TED的试验中明显是基准线MT在绝大多数的语言上都表现最好，但是呢作者认为之所以表现好是因为他作弊，用了更多的信息才构建了MT模型的，而我们的模型只用到了最简单的双语语料库，其他的信息都没有用到，所以表现差一点情有可原。

TED实验结果

作者还拿模型和Sena生成的词向量做了比较。在这里发现人家Sena 虽然用的数据量比我们大很多，但是我们的结果一点都不差哇。

和sena 比较

最后，作者还进行了一步探索，就是发现训练出来的词向量，具有双语聚类的效果。就像我们的普通词向量能够相近的词自动的聚成一堆一样，我们发现该论文生成的向量首先是把所有语言的单词都放在了同一个语料库中，然后发现意思相近的词聚拢在了一起。真是有趣的发现，不知道能不能借鉴到翻译中去。

词向量

总结

这篇论文看的真是舒畅哇，难得一篇熟悉的领域的论文。在这里学到的东西是怎么学习language independent的词义向量，这一点是很有意思的。

相关文章

Multi-lingual Models for Compost
第一遍过论文 1.1 论文类型这是一篇提出新模型，并且给出验证和分析的论文 1.2 论文领域这篇论文研...
家庭自制腐殖土（转）
家庭做compost的好处有很多。compost可使你获得高质量，并且免费的土壤改良剂。它可以帮助土壤保持水分和营...
docker私有仓库Harbor安装
环境 1、Centos7.3 2、Docker版本：18.03.1-ce 3、Docker-compost：1.2...
看《Peppa Pig》学英语（三十九）
作者：Alice的学习笔记单词 compost可作名词，表示肥料，也可作动词，表示把……制成堆肥。 Cut ...
宏观经济学模型
Classiflcation of Models Market-clearing models are somet...
Pytorch Save & load the model 2
import torchimport torchvision.models as models Saving an...
什么样的软件架构是好的？
“All models are wrong, some models are useful” ——George B...
怎么样的软件架构算好的？
“All models are wrong, some models are useful” ——George B...
models
model映射的是数据库中的表所有定义的model是派生于Model的定义完model后需要再INSTALL...
models
class mysql {} class oracle{} class factory{ grtdb(type){...

网友评论

机器学习与数据挖掘

本文标题：Multi-lingual Models for Compost

本文链接：https://www.haomeiwen.com/subject/zkudbftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

机器学习与数据挖掘

热点阅读

机器学习与数据挖掘

关于我们|服务条款|联系我们|Multi-lingual Models for Compost|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！