[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi

作者: holeung | 来源:发表于2017-11-10 11:28 被阅读0次

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-24（introducti
[机器学习入门] 李宏毅机器学习笔记-30 (Sequence
[机器学习入门] 李宏毅机器学习笔记-31 (Sequence
[机器学习入门] 李宏毅机器学习笔记-14 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-22（Transfer L
[机器学习入门] 李宏毅机器学习笔记-9 （“Hello wor
[机器学习入门] 李宏毅机器学习笔记-33 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-34 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-29 (Sequence

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervised Learning: Word
Embedding；无监督学习：词嵌入）

PDF	VIDEO

Word Embedding

Word Embedding 是前面讲到的dimension reduction一个很好的应用。

这里写图片描述

1-of-N Encoding，是把所有的word用一个向量表示，每个向量都不一样，我们没办法从中获得更多的信息，比如猫和狗都属于动物，所以这时我们用Word Class将其分为n个类型，但又有了另一个问题，我们同样无法得知两个类型之间的相关性，所以要采用Word Embedding方法，就是把每一个word都投射到一个高维空间里，两个相似的类型隔得距离较近，这样就能得到相关性。
那么怎样让机器读懂词汇呢？

这里写图片描述

只知道输入，不知道输出，这就是一个无监督学习。

这里写图片描述

核心思想就是，通过该词语的上下文。

这里写图片描述

How to exploit the context?

有两个方法：
1.Count based

这里写图片描述

2.Prediction-based
用前面words 作为neural network的输入预测下一个词的几率。

这里写图片描述

Prediction-based

训练出neural network，所以我们将他的第一个hidden layer拿出来，就能将它们对应到相应的空间。

这里写图片描述

但是，仅通过一个词汇就要预测下一个词汇是很难的，所以通过Sharing Parameters来进行增强。

Sharing Parameters

不仅用前一个word，还用前n个词来一起预测。

这里写图片描述

同样的weight是为了让同一个word放在i-1的位置和i-2的位置都有同样的transform，Or, one word would have two word vectors.另外的好处是可以减少参数量。
计算过程：

这里写图片描述

怎样让W1，W2等参数的weight一样呢？

这里写图片描述

那么怎样来训练这个network呢？

Training

完全是无监督的。

这里写图片描述

Various Architectures 有几招：

这里写图片描述

回到Word Embedding

Word Embedding

可以发现，我们把同样类型的word摆在一起，他们之间是有固定的关系的。

这里写图片描述

所以就可以从中发现一些关系。
比如让两个word两两相减，然后project到一个space上，如果落到同一处，则他们之间的关系是很类似的。

这里写图片描述

有了这个特性，这样我们就可以做一些预测工作。

这里写图片描述

相关文章

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervised Learning: WordEmbeddi...
[机器学习入门] 李宏毅机器学习笔记-24（introducti
[机器学习入门] 李宏毅机器学习笔记-24（introduction of Structured Learning...
[机器学习入门] 李宏毅机器学习笔记-30 (Sequence
[机器学习入门] 李宏毅机器学习笔记-30 (Sequence Labeling Problem part 2 ;...
[机器学习入门] 李宏毅机器学习笔记-31 (Sequence
[机器学习入门] 李宏毅机器学习笔记-31 (Sequence Labeling Problem part 3 ;...
[机器学习入门] 李宏毅机器学习笔记-14 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-14 （Unsupervised Learning: Linear Dime...
[机器学习入门] 李宏毅机器学习笔记-22（Transfer L
[机器学习入门] 李宏毅机器学习笔记-22（Transfer Learning part 2；迁移学习 part ...
[机器学习入门] 李宏毅机器学习笔记-9 （“Hello wor
[机器学习入门] 李宏毅机器学习笔记-9 （“Hello world” of deep learning；初探深度...
[机器学习入门] 李宏毅机器学习笔记-33 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-33 (Recurrent Neural Network part 2;循环...
[机器学习入门] 李宏毅机器学习笔记-34 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-34 (Recurrent Neural Network part 3;循环...
[机器学习入门] 李宏毅机器学习笔记-29 (Sequence
[机器学习入门] 李宏毅机器学习笔记-29(Sequence Labeling Problem part 1;结构...

网友评论

本文标题：[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi

本文链接：https://www.haomeiwen.com/subject/recbmxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！