美文网首页
一文理解Word2Vec-part1

一文理解Word2Vec-part1

作者: 是杨不是阳羊扬 | 来源:发表于2018-11-18 17:44 被阅读0次

    前言

    首先推荐一个英文版的Word2Vec的教程,从原理到实现都讲得十分透彻和清晰。它分为了几个部分讲,当时我也是看的这个教程入门的,建议英文比较好的同学可以参考一下。本文创作的目的也是想写一个类似这样的教程,达到一文理解Word2Vec的目的。

    为什么要表示词(Why Embdding?)

    在进行自然语言处理方面的研究时,特别时在使用深度学习方法的时候,我们几乎不可能直接将每个词输入到模型中,因为计算机看不懂一个一个的字符串,因此需要将词用数字表示(通常是向量),以让机器能够读懂,理解自然语言。表征得是否易懂,信息是否足够等都是Embedding需要考虑的因素。下面介绍两种表示词的方法以加深理解。

    词嵌入的两种方式

    我这里标题使用了词嵌入的说法,我认为是指将每个词背后的语义信息嵌入到了词向量中,所以叫嵌入,还是很形象的 :)。

    One-Hot表示

    估计是每个NLPer最先接触到的表征方式了。
    它是这么做的:

    1. 统计一下语料库里一共有多少不重复的词(假设为N个词)。
    2. 初始化一个N维的0向量(每一维代表一个词)。
    3. 哪一维为1,表示这个向量代表哪个词。

    十分简单,但问题也十分明显。
    1.维度太大,又很稀疏,一个几万维的向量只有一个1,感受一下。
    2.没有啥信息量,只能简单区分出两个单词。

    Word2Vec

    Word2Vec在13年横空出世,几乎那以后的所有文章都以Word2Vec为基础,这篇文章的引用在今天(18年11月)已经有8318了:)。足以说明它有多强悍。
    先看一眼Word2Vec训练出来的词向量:

    Word2Vec.png
    稠不稠?密不密?除了解决了稠密性问题,而且这些向量的维度也一般控制在低维。(50-300维这样)因此在输入到后续模型时不需要太担心性能问题。
    此外这些词还包含了丰富的语义信息,相似的词的词向量一般距离会比较近,还有就是那个经典的例子:

    Queen - Woman = King - Man

    总之,Word2Vec学到了词语的稠密低维表示,又蕴含有较多的语义信息。

    Word2Vec原理

    Word2Vec有两种实现方式,Skip-gram 和 CBOW。本文以Skip-gram为例进行讲解,CBOW其实和Skip-gram的区别很小,理解了Skip-gram,CBOW也就理解了。
    很多文章都以一个三层的神经网络来介绍Word2Vec的原理,本文尝试以另外一个视角进行理解,但其实质都是一样的。

    任务

    首先明确一下Word2Vec的任务是什么。为了使得相似的词有相似的词向量,而相似的词往往有相似的语境,因此Skip-gram采用了预测背景词作为任务。
    例如,当输入词“York”,与“New”,“Slow”, "Flower"这些词比较的时候,我的模型需要告诉我“New”与"York"一起出现的可能性较大,而与“Slow”和"Flower"同时出现的可能性较小。
    Skip-gram使用了很简单的方式来完成这个任务。

    构造数据集

    以上面的句子为例,给出了"York"希望模型预测"New"的概率要大一些。"York"就是输入,"New"就是label,标签。我们首先需要在给定的语料中构建这样的数据集。
    Skip-gram字面上就是跳过gram,这里跳过的是模型的输入,即中心词,需要预测的是附近(window size内的)的词。


    Skip-gram

    上图中的window size设为了2,表示将前2和后2的词作为标签,中心词作为输入,来构建数据集。

    训练

    先提出一个假设:

    每个词有两个词向量,一个称为中心词向量,一个称为背景词向量

    如果有N个词,为每个词随机初始化两个词向量,因此最终我们有2*N个词向量需要训练。
    再提出一个规则:

    同一个词,作为输入(中心词)时,使用中心词向量,作为输出(背景词)时,使用背景词向量。

    现在我们来看输入一个样本(New, York)时的训练过程:

    训练
    训练时,将New的中心词向量,分别与所有词的背景词向量进行点积。假设有N个词,那么这一步操作将会产生N个值,然后再将这N个值进行Softmax归一化。最终将N个值转换为输入New,输出每个词的概率。
    例如:假设Dot("New", "Man")=42,归一化后P("New", "Man")=0.001,意味着输入“New”,输出“Man”的概率是0.001。
    Softmax
    但是别忘了,输入的训练样本是("New", "York"),因此我们希望提升P("New", "York"),打压P("New", “其他所有词”)。这样,这个样本就训练完了。需要强调的是,此时"New"用的是它的中心词向量,而“其他所有词”使用的是背景词向量。

    后续

    到目前为止,本文介绍了Word2Vec是什么,能做什么,以及它是怎么训练的。但是一些训练中的细节还未涉及到,而这些细节也是Word2Vec能够work的关键,比如这么大的模型怎么才能train起来?10000个词的200维词向量就需要有200100002 = 4000000个参数。这些细节将在一文理解Word2Vec-part2会进行介绍。其实这样的训练方式不止Google想到了,甚至可能有其他的研究人员在他们之前想到这样的做法,但是只有Google把细节做到了极致,才有了今天的Word2Vec。

    参考资料

    部分图片来自Word2Vec Tutorial - The Skip-Gram Model

    相关文章

      网友评论

          本文标题:一文理解Word2Vec-part1

          本文链接:https://www.haomeiwen.com/subject/kvjgfqtx.html