定义
按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。
聚类与分类的区别
Clustering (聚类),unsupervised learning (无监督学习)。
Classification (分类),supervised learning (监督学习)。
聚类过程
- 数据准备:包括特征标准化和降维;
- 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中;
- 特征提取:通过对所选择的特征进行转换形成新的突出特征;
- 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,而后执行聚类或分组;
- 聚类结果评估:是指对聚类结果进行评估,评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。
衡量聚类算法优劣的标准
- 处理大的数据集的能力;
- 处理任意形状,包括有间隙的嵌套的数据的能力;
- 算法处理的结果与数据输入的顺序是否相关,也就是说算法是否独立于数据输入顺序;
- 处理数据噪声的能力;
- 是否需要预先知道聚类个数,是否需要用户给出领域知识;
- 算法处理有很多属性数据的能力,也就是对数据维数是否敏感。
1.层次化聚类方法
CURE算法
2.划分式聚类方法
K-means
3.基于密度的方法
DBSCAN
4.基于网格的方法
STING算法
5.神经网络
SOM算法
6.基于图的聚类方法
谱聚类
网友评论