美文网首页呆鸟的Python数据分析
每天一个知识点(五)

每天一个知识点(五)

作者: 少年小马 | 来源:发表于2020-03-30 22:32 被阅读0次

    今天介绍一个特殊的向量。

    one hot(独热)向量:  ti={0,0,0,...,1,...0}

    one hot 向量中只有一个特征值不为0,其他都为0。向量的长度由离散的所有特征数目决定,独热向量在处理分类问题上有很大的优势。

    优势:独热想想能够处理离散的标签,扩充特征个数,将离散特征通过one-hot编码映射到欧式空间,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

    缺点:会损失标签的顺序信息,即不能处理带有顺序的数据;不能处理大量的标签,这样会使独热向量非常大。

    相关文章

      网友评论

        本文标题:每天一个知识点(五)

        本文链接:https://www.haomeiwen.com/subject/kbnbuhtx.html