2018 · EMNLP · Dict2vec : Learning Word Embeddings using Lexical Dictionaries ·
想法来源:使用词典里面对词的解释,来训练word embedding
价值:证明了这个想法的可行性
方法:在词典对词的解释中,选出与词相关的正样例上下文,使用skip-gram训练词向量。
缺点:直觉上没有完全利用词典的作用。而且,从解释中选出相关词本身就是一个没有理由的做法。
详细方案:
定义Strong pair: 在词典中,双方互相出现在对方解释中的词,叫做Strong pair,否则叫Weak。
把Strong 和 Weak都当做正例,利用skip-gram训练但是设置损失函数比例系数,负采样就是正常的负采样。
-c400 -c400
-c400
-c400
数据集:
词典是自己做的,从Cambridge, Oxford, Collins and dictionary.com中获取,然后组合。
同时为了比较w2c和fastext,使用了November 2016 English dump from Wikipedia
实验的数据集
MC-30
MEN
MTurk-287
MTurk-771
RG-65
SimVerb-3500
RW
WordSim-353
YP-130
分类
AG-News
DBpedia
Yelp reviews
实验:
相似度的实验
-c500
-c500
分类实验
image
网友评论