模式识别——聚类分析学习笔记

作者: 仰望星空的小狗 | 来源:发表于2019-08-14 13:50 被阅读0次

模式识别——聚类分析学习笔记
模式识别——聚类分析学习笔记
如何找到患者数据中具有差异的指标？（PLS—DA分析）
聚类分析-kmeans
集成聚类系列（一）：基础聚类算法简介
2019-03-07
聚类分析（1）之市场细分
认知方法论笔记（十四）
学习的本质是“模式识别”
K-means聚类分析案例（一）

聚类分析相关概念

聚类分析——对一批没有标出类别的模式样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的归为另一类
聚类中，将样本根据相似程度进行分类，这个相似程度就是用样本特征之间的相似程度。把整个模式样本集的特征向量看成是分布在特征空间中的一些点，点与点之间的距离即可作为模式相似性的测量依据，也就是将特征空间中距离较近的样本归为一类。
其中，特征的选择非常重要。当特征选少了，可能导致聚类困难；特征选多了，就会增加计算量。

模式相似性的测度和聚类准则

相似性测度

为了能将模式集划分成不同的类别，必须定义一种相似性的测度，来度量同一类样本间的类似性和不属于同一类样本间的差异性。
相似性测度一般有欧氏距离、马氏距离、明氏距离等。
其中，用作测度的各种距离的量纲的选择要保持一致，否则，选择不同的量纲会导致不同的分类，如下图。

这里写图片描述

聚类准则

有了模式的相似性测度，还需要一种基于数值的聚类准则，能将相似的模式样本分在同一类，相异的模式样本分在不同的类。聚类准则一般有试探方法和聚类准则函数法。

聚类算法举例

KNN最近邻算法

该算法的步骤如下：
$给定N个待分类的模式样本{x_1, x_2, …, x_N}，要求按距离阈值T，将它们分类到聚类中心z_1, z_2, …。$
第一步——
$任取一样本x_i作为一个聚类中心的初始值，例如令z_1 = x_1$
$计算D_{21} = || x_2 - z_1 ||$
$若D_{21} > T，则确定一个新的聚类中心z_2 = x_2$
$否则x_2属于以z_1为中心的聚类$
第二步——
$假设已有聚类中心z_1、z_2$
$计算 D_{31} = || x_3 - z_1 ||$
$D_{32} = || x_3 - z_2 ||$
$若D_{31} > T且D_{32} > T，则得一个新的聚类中心z_3 = x_3$
$否则x_3属于离z_1和z_2中的最近者$
$······$
$如此重复下去，直至将N个模式样本分类完毕。$

K均值算法

第一步——
$选K个初始聚类中心，z_1(1)，z_2(1)，…，z_K(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个模式样本的向量值作为初始聚类中心。$
第二步——
$逐个将需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个z_j(1)。$
$假设i=j时，D_j(k)=min\{||x-z_i(k)||,i=1,2,...,k\},则x\in S_i(k),其中k为迭代运算的次序号，第一次迭代k=1，S_j表示第j个聚类，其聚类中心为z_j。$
第三步——
$计算各个聚类中心的新的向量值，z_j(k+1)，j=1,2,…,K 求各聚类域中所包含样本的均值向量：$
$$ z_j(k+1)=\frac{1}{N}\sum_{x\in S_j(k)}x,j=1,2,...,K $$$在这一步中要分别计算K个聚类中的样本均值向量，所以称之为K均值算法。 $**第四步——**$ 若z_j(k+1)\neq z_j(k) ，j=1,2,…,K，则返回第二步，将模式样本逐个重新分类，重复迭代运算；
若z_j(k+1)=z_j(k) ，j=1,2,…,K，则算法收敛，计算结束。
$
$$$$
*本人才疏学浅，文中若有不当之处，望请指点

模式识别——聚类分析学习笔记
聚类分析相关概念聚类分析——对一批没有标出类别的模式样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的...
模式识别——聚类分析学习笔记
聚类分析相关概念聚类分析——对一批没有标出类别的模式样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的...
如何找到患者数据中具有差异的指标？（PLS—DA分析）
从海量数据中发现潜在标志指标, 需要借助多变量模式识别方法. 无监督的模式识别方法包括主成分分析（PCA、聚类分析...
聚类分析-kmeans
聚类分析是一种静态数据分析方法，常被用于数据挖掘、机器学习、模式识别等领域，聚类是一种无监督式的学习方法。它是在未...
集成聚类系列（一）：基础聚类算法简介
聚类研究背景：在机器学习中，一个重要的任务就是需要定量化描述数据中的集聚现象。聚类分析也是模式识别和数据挖掘领域...
2019-03-07
聚类分析单击→聚类分析（欢迎关注微信公众号：spss学习乐园）聚类分析聚类分析：研究如何将样品或变量进行分...
聚类分析（1）之市场细分
在市场研究中，聚类分析用的最多的就是细分市场。笔记结合两个问题：聚类分析、市场细分。聚类分析是市场细分的一个统计方...
认知方法论笔记（十四）
第十四天直觉与数据主义认知中的模式识别与机器学习： “模式识别”是演绎，“机器学习”是归纳。模式识别——锤子...
学习的本质是“模式识别”
学习的本质是“模式识别”
K-means聚类分析案例（一）
之前的笔记：聚类介绍：点这里层次聚类分析案例（一）：世界银行样本数据集层次聚类分析案例（二）：亚马逊雨林烧毁情况层...