美文网首页
词向量Word2vec

词向量Word2vec

作者: Colleen_oh | 来源:发表于2020-06-12 18:42 被阅读0次

下面是记录一下,学习词向量的笔记(根据自己的风格)

一、词向量

假设现在词向量长度length=3,一个词对应one-hot向量,假设为1*n,乘一个hiddenmatrix,维度为n*3。求one-hot向量与hidden matrix求乘积。得到的就是词向量。

这个hidden matrix用神经网络不断训练,可以得到一个比较平衡的matrix。

假设两个单词语义接近,则两个单词的词向量也接近。反之,如果两个单词的词向量接近,则语义也会接近。

二、词向量长度length如何设定?

       如果length过长,那训练的时候就需要非常多数据。如果用神经网络,loss下降不明显,不能准确预测。而且向量不具备语义相似性,会导致找不到同义词,会返回随机值。

       如果length过短,会造成模型过度训练,输入一个单词,期望找到相似词汇时,会找到这个单词左右(周围)的单词,并不是语义最接近的单词。

        length取决于文本量(词汇数和训练文本数)。一般来说,如果是几百万的文本量,length可取300或500,可以根据观察以上length过长或过短的特征来判断。

三、词向量主要方法

       Skip-gram(gram是元素的意思)。给定中间的单词预测周围的单词。

       CBOW(continue bag of words连续词袋子)。输入周围的单词,预测中间的单词。为什么叫连续词袋子呢?因为中间有个地方,要从两边填进去,像个呆子一样哈哈哈哈哈。

四、其他小笔记

激活函数本质是对数字的变换

t-sne可以把高维降维画图

Huffman tree(哈夫曼树)是词向量太大的优化方法,词语出现频率越高,就在树的上面,距离根节点越短,路径越短。

相关文章

  • word2vec、负采样、层序softmax

    word2vec word2vec也叫word embeddings,中文名“词向量”、"词嵌入"。是Google...

  • 词表征学习算法 — Word2Vec

    Word2Vec 是 google 在2013年提出的词向量模型,通过 Word2Vec 可以用数值向量表示单词,...

  • pretrained word vectors

    获取训练好的词向量 (word2vec/fastText) 获取训练好的词向量(fastText) 手写数字可视化...

  • 动态词向量算法 — ELMo

    传统的词向量模型,例如 Word2Vec 和 Glove 学习得到的词向量是固定不变的,即一个单词只有一种词向量,...

  • 基于word2vec训练词向量(一)

    1.回顾DNN训练词向量 上次说到了通过DNN模型训练词获得词向量,这次来讲解下如何用word2vec训练词获取词...

  • 利用Word2vec生成句向量(一)

    首先为什么是Word2vec?不是Glove也不是什么Fasttext等其他的词向量?Glove词向量的训练与部署...

  • 如何gensim加载glove训练的词向量

    如何gensim加载glove训练的词向量 一、前言 glove和word2vec是目前最常用的两个训练词向量的模...

  • NLP笔记 - 词向量

    学习词向量的笔记 词向量 or word2vec,一种NLP中对词语的特征表示。由于one-hot会产生维度灾难,...

  • NLP模型

    2020-01-11 word2vec 词袋 每个词有一个对应的onehot编码可以得到文本的向量化结果,向量长度...

  • Gensim调用Word2Vec

    使用python自然语言处理包Gensim 调用Word2Vec进行词向量转换

网友评论

      本文标题:词向量Word2vec

      本文链接:https://www.haomeiwen.com/subject/obflnhtx.html