美文网首页大数据深度学习
探秘Word2Vec(三)-词向量的理解

探秘Word2Vec(三)-词向量的理解

作者: 文哥的学习日记 | 来源:发表于2017-07-28 16:50 被阅读128次

    在NLP任务中,我们将自然语言交给机器学习算法来处理,但机器无法直接理解人类的语言,因此首先的任务就是将语言数学化,如何对自然语言进行数学化呢?词向量提供了一种很好的形式。这里我们介绍两种简单的词向量

    1、one-hot representation

    一种最简单的词向量就是one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为辞典D的大小N,向量的分量只有一个1,其他全部是0,1的位置对应盖茨在辞典中的索引,但这种词向量有一些缺点,容易受到维数灾难的困扰,同时,他不能很好的刻画词与词之间的相关性。

    2、Distributed representation

    另一种词向量是Distributed representation,其基本思想是:通过训练某种语言的每一个词映射成一个固定长度的短向量,所有这些向量构成一个词向量空间,而每个向量视为这个空间中的一个点,那么,可以在这个空间中引入距离的概念,比如余弦距离,用以刻画词之间的相关性。

    相关文章

      网友评论

        本文标题:探秘Word2Vec(三)-词向量的理解

        本文链接:https://www.haomeiwen.com/subject/dilflxtx.html