数据聚类分析是一种无监督的机器学习方法。数据聚类算法从算法实现的不同方式方面可以划分为结构性或者分散性两种算法类型,从计算方式而言,可以拆分为至上而下(大——小,整体到具体)和至下而上(小——大,具体到整体)两个计算方式。
6.1 基于系统聚类法
系统聚类又称作层次聚类,是通过计算将距离较近的样本先聚成一类,距离较远的样本后聚成了类,通过不断计算样本之间距离,最终每个样本都能找到合适的聚簇。
6.1.1 概述
从聚类的过程分析,可以将聚类划分为:
1、系统聚类:主要用于对小数据量的样本间聚类及对指标聚类。
2、逐步聚类法:也称作为快速聚类法,主要用于对大数据样本之间的聚类。
3、有序样本聚类法:用于对有序的数据样本进行聚类,将次序相邻的样本聚为一类的方法。
4、模糊聚类法:基于模糊数学的样本聚类分析方法,主要适用于小数据样本。
在聚类中,主要的距离计算方法包括:最短距离法,最长距离法,中间距离法,重心法,离差平方和法及类平均距离法,这些距离的定法包括了前面介绍过的欧式距离、马氏距离、余弦相似性等。
6.1.2 最短距离法
主要通过样本数值之间的距离计算,然后将距离值最小的样本进行合并的过程。具体步骤如下:
1、定义样本数据之间的距离计算方式。
2、计算初始样本两两之间的距离,构成距离矩阵。
3、在距离矩阵中筛选出最小的距离值,将最小值对应的两个样本合并为一个新的样本。
4、将新的样本纳入到样本中,再次进行迭代计算距离矩阵,重复2、3步骤,直到所有的样本均合并为一个大样本。
6.1.3 重心聚类法
将两个聚类中心的距离定义为两个类的重心之间的距离,而类的重心为属于该类的样本的平均值。重心的概念能够较好地体现类的属性。
6.1.4 动态聚类法
利用类平均值法对数据进行聚类的方法属于动态聚类的方法,也称作逐步聚类法,大致步骤是实现通过粗粒度的方式对样本进行分类,然后再逐步调整样本所属的聚簇,直到把所有样本分到合理的聚簇中。
网友评论