今天介绍一个特殊的向量。
one hot(独热)向量: ti={0,0,0,...,1,...0}
one hot 向量中只有一个特征值不为0,其他都为0。向量的长度由离散的所有特征数目决定,独热向量在处理分类问题上有很大的优势。
优势:独热想想能够处理离散的标签,扩充特征个数,将离散特征通过one-hot编码映射到欧式空间,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
缺点:会损失标签的顺序信息,即不能处理带有顺序的数据;不能处理大量的标签,这样会使独热向量非常大。
网友评论