今天(打卡)看了:
1.实际中的词
实际中的单词就是一个符号,但很难用在计算机中。同时比较难的原因是,语言微小的差异会使得效果差。
2.词表示的one hot 独热模型
它使用将词映射成仅对应字典位置为1的方法,把词投影为01的向量。缺点是当两个词向量作点积时为0,即两个词没有相似性,而且字典大小随词的增大而增大。
3.词和词的相似性 —— word2vec
要建立词和词的相似性,用到了分布相似性的东西。指通过大量的表示。使用上下文的词表示这个词的意思。反过来通过一个词,可以预测他的上下文。
word2vec利用语言的意义理论来预测每个单词和他的上下文的词汇,有两个生成词汇的方法,有两个训练方法。
相对于词袋模型:词袋向量是所有词的平均,是简单的无监督学习方法,是加权的词袋表示。
3.1 Skip-gram
每一步都取一个词作为中心词汇 ,然后预测一定范围内的上下文词汇。定义一个概率分布。这个方法的基本思路是给定一个句子表示,以及其概率极值或单个词汇,他们就可以跟这个词汇的频率关联起来。还能得出这个单词跟这个句子表示之间的关联程度。
4.批处理与随机梯度下降(SGD)方法
附:
课件: lecture02(链接地址: https://github.com/learning511/cs224n-learning-camp/blob/master/lecture-notes/cs224n-2017-lecture2.pdf )
观看视频2(链接地址: https://www.bilibili.com/video/av30326868/?p=2 )
学习笔记:wordvecotor(链接地址: http://www.hankcs.com/nlp/word-vector-representations-word2vec.html )
网友评论