2017 · TACL · Enriching Word Vec

2017 · TACL · Enriching Word Vec

作者: HelloShane | 来源:发表于2018-09-24 11:36 被阅读0次

2017 · TACL · Enriching Word Vec
fastText
Word2Vec原理，彻底搞懂
翻译Gensim的word2vec说明
word2vector简介
中文维基百科训练Word2Vec模型
word2vec
tensorflow实战-10.word2vec
词向量和 word2vec
Word2Vector 算法

想法来源：很多的词向量表达都是将词作为单一体来看待的，没有考虑参数的共享。从感知角度来说，就是失去了原有的内部结构。

价值：
a. 学习到词与词形态学方面的信息，词与词交集越多，且语义相近的数据集，其效果越好。（可查看sisg-的效果）
b. 较好解决OOV的情况，对于长尾数据是很好的补充。（可查看sisg的效果）

方法：“火影忍者”的2-gram表示——<火,火影,影忍,忍者,者>，其中<和>分别为起始和结尾标识符。把原本的一个词分词若干个子单位。

缺点：词典数量巨大

详细方案：
举例（n<4）：word =“我/睡/不/着/仔细/看/了/半夜”，unigram有8个，bigram有7个，trigram有6个。这21个gram向量独立表示，然后用这21个向量和来表示这个word。

这样"睡"既要单独学习，也要在"我睡"、"睡不"、"我睡不"、"睡不着"当中表示，逻辑上有参数共享的功用，从而更好的学习表示。

然后利用skip-gram可以来无监督的训练。

相关文章

2017 · TACL · Enriching Word Vec
想法来源：很多的词向量表达都是将词作为单一体来看待的，没有考虑参数的共享。从感知角度来说，就是失去了原有的内部结构...
fastText
1.Enriching Word Vectors with Subword Information2.Bag of...
Word2Vec原理，彻底搞懂
References: 图解Word2vec 经典再读之Word2Vec word2vec Parameter L...
翻译Gensim的word2vec说明
未完待译 word2vec 模块——使用word2vec进行深度学习 models.word2vec – Dee...
word2vector简介
word2vec官网：https://code.google.com/p/word2vec/ word2vec是g...
中文维基百科训练Word2Vec模型
word2vec-Chinese a tutorial for training Chinese-word2vec...
word2vec
word2vec word2vec 构建中文词向量
tensorflow实战-10.word2vec
源码目录： tensorflow/examples/tutorials/word2vec/word2vec_bas...
词向量和 word2vec
(这里用于备份, 原文见 https://sunoonlee.github.io/2017/04/word-vec...
Word2Vector 算法
谈谈谷歌word2vec的原理github上的资料（1） word2vec 中的数学原理详解 word2vec源码...

网友评论

本文标题：2017 · TACL · Enriching Word Vec

本文链接：https://www.haomeiwen.com/subject/tcbcoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|2017 · TACL · Enriching Word Vec|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！