美文网首页
NLP-词向量:one hot

NLP-词向量:one hot

作者: Huoyo | 来源:发表于2019-08-21 17:46 被阅读0次

在文本中,如果需要对其进行相似度计算或者其他计算时,文字是无法直接进行计算的,所以就需要对文本进行量化处理,也就是进行数字编码才能对文本进行计算,而one hot就是其中一种出现比较早也比较简单的编码方式。

一、one-hot编码

one-hot编码被称为【独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制】^{[1]}。 简单的来说就是用0和1的编码方式来表示需要处理的一些信息,以达到该信息向量化的一种手段。

  • 有如下两组特征属性:
  • 性别:["男","女"]
  • 爱好:["篮球","足球","乒乓球"]

男、女的序号分别为0、1
篮球、足球、乒乓球的序号分别为0、1、2

性别有两个属性,那么可以两位的特征向量来表示男性和女生,分别为

男=(1,0),女=(0,1),

爱好有三个属性,那么可以三位的特征向量来表示篮球、足球和乒乓球,分别为

篮球=(1,0,0),足球=(0,1,0),乒乓球=(0,0,1)

二、文本的one-hot表示

假设有如下语料

明天 我们 去 看 电影
明天 我们 去 爬山
明天 我们 去 运动
我 喜欢 打 篮球
我 不 喜欢 看 电视

上述五句话中一共涉及13个词,分别为

[明天 我们 去 看 电影 爬山 运动 我 喜欢 打 篮球 不 电视]

可以用13位的向量表示每一句话,分别如下

[1. 1. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
[1. 1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 1. 0. 0.]
[0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 1. 1.]

三、基于keras代码实现

from keras.preprocessing.text import Tokenizer
corpus=[
'明天 我们 去 看 电影',
'明天 我们 去 爬山',
'明天 我们 去 运动',
'我 喜欢 打 篮球',
'我 不 喜欢 看 电视'
]

tokenizer=Tokenizer()
tokenizer.fit_on_texts(corpus)
sequences=tokenizer.texts_to_matrix(corpus)
print(sequences[:,1:])

【引用】
[1] 百度百科

相关文章

  • NLP-词向量:one hot

    在文本中,如果需要对其进行相似度计算或者其他计算时,文字是无法直接进行计算的,所以就需要对文本进行量化处理,也就是...

  • One-hot与Word2Vec

    one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot...

  • 2019-04-24

    Embedding和One_hot将词变成向量的例子: 词嵌入(Word Embedding) Word embe...

  • 词向量

    目前词向量主要用的技术 word2vec fasttext glove 1 one-host编码 one-hot编...

  • 词向量-简介

    词向量,顾名思义,就是使用向量来表达词。最常见的表达方式就是"one-hot",其向量维度为整个语料库中词的总数,...

  • NLP笔记 - 词向量

    学习词向量的笔记 词向量 or word2vec,一种NLP中对词语的特征表示。由于one-hot会产生维度灾难,...

  • CS224N笔记——词向量表示

    one hot 表示 主要问题 所有的向量都是正交的,无法准确表达不同词之间的相似度,没有任何语义信息 向量维度是...

  • 第3节:文本向量化-最初的word2vec

    那么如何将字词转化为数据呢,在刚开始时人们采用的是one-hot 向量 什么是one-hot向量 (例子介绍) o...

  • 每天一个知识点(五)

    今天介绍一个特殊的向量。 one hot(独热)向量: ti={0,0,0,...,1,...0} one ho...

  • NLP-词向量

    利用语料学习时,首先要解决的问题-将某个词转化为词向量 word2vec工具 英语约1300万词,词向量可以用一个...

网友评论

      本文标题:NLP-词向量:one hot

      本文链接:https://www.haomeiwen.com/subject/vjdrrctx.html