聚类分析相关概念
聚类分析——对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类
聚类中,将样本根据相似程度进行分类,这个相似程度就是用样本特征之间的相似程度。把整个模式样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为模式相似性的测量依据,也就是将特征空间中距离较近的样本归为一类。
其中,特征的选择非常重要。当特征选少了,可能导致聚类困难;特征选多了,就会增加计算量。
模式相似性的测度和聚类准则
相似性测度
为了能将模式集划分成不同的类别,必须定义一种相似性的测度,来度量同一类样本间的类似性和不属于同一类样本间的差异性。
相似性测度一般有欧氏距离、马氏距离、明氏距离等。
其中,用作测度的各种距离的量纲的选择要保持一致,否则,选择不同的量纲会导致不同的分类,如下图。
这里写图片描述
聚类准则
有了模式的相似性测度,还需要一种基于数值的聚类准则,能将相似的模式样本分在同一类,相异的模式样本分在不同的类。聚类准则一般有试探方法和聚类准则函数法。
聚类算法举例
KNN最近邻算法
该算法的步骤如下:
第一步——
第二步——
K均值算法
第一步——
第二步——
第三步——
$$ z_j(k+1)=\frac{1}{N}\sum_{x\in S_j(k)}x,j=1,2,...,K $$$在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K均值算法。若z_j(k+1)\neq z_j(k) ,j=1,2,…,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;
若z_j(k+1)=z_j(k) ,j=1,2,…,K,则算法收敛,计算结束。
$
$$$$
*本人才疏学浅,文中若有不当之处,望请指点
网友评论