聚类

作者: 斗斗888 | 来源:发表于2019-07-10 14:42 被阅读0次

一、了解聚类

    聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似类别之间的数据相似度比较小;属于无监督学习。

    聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。

聚类和分类算法的区别

    分类算法是有监督学习,基于有标注的历史数据进行算法模型构建。

    聚类算法是无监督学习,数据集中的数据是没有标注的。

二、相似度

    聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。    

1、闵可夫斯基距离(Minkowski)

当p为1的时候是曼哈顿距离(Manhattan)

当p为2的时候是欧式距离(Euclidean)

当p为无穷大的时候是切比雪夫距离(Chebyshev)

2、夹角余弦相似度(Cosine):

挖掘数据内在关联的时候可能会用到。设两个向量,夹角余弦相似度。

夹角余弦相似度

相关文章

网友评论

    本文标题:聚类

    本文链接:https://www.haomeiwen.com/subject/twkhkctx.html