聚类

作者: dingtom | 来源:发表于2020-05-02 22:57 被阅读0次

定义

按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大

聚类与分类的区别

Clustering (聚类),unsupervised learning (无监督学习)。
Classification (分类),supervised learning (监督学习)。

聚类过程

  • 数据准备:包括特征标准化和降维;
  • 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中;
  • 特征提取:通过对所选择的特征进行转换形成新的突出特征;
  • 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,而后执行聚类或分组;
  • 聚类结果评估:是指对聚类结果进行评估,评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。

衡量聚类算法优劣的标准

  • 处理大的数据集的能力;
  • 处理任意形状,包括有间隙的嵌套的数据的能力;
  • 算法处理的结果与数据输入的顺序是否相关,也就是说算法是否独立于数据输入顺序;
  • 处理数据噪声的能力;
  • 是否需要预先知道聚类个数,是否需要用户给出领域知识;
  • 算法处理有很多属性数据的能力,也就是对数据维数是否敏感。

1.层次化聚类方法

CURE算法

2.划分式聚类方法

K-means

3.基于密度的方法

DBSCAN

4.基于网格的方法

STING算法

5.神经网络

SOM算法

6.基于图的聚类方法

谱聚类

相关文章

网友评论

      本文标题:聚类

      本文链接:https://www.haomeiwen.com/subject/ooalghtx.html