物以类聚
- 类中的个体具有相似性,相似性聚类
无监督学习:使用不知类别的样本集进行分类器设计 - 基于概率密度函数估计的方法(难点在于 密度函数如何估计)
- 基于样本集间相似性度量的方法(聚类分析)
训练前,甚至没有确切的类别数目和类别定义,需要根据待分类样本集的实际特征分布情况与分类活动的应用目的,通过训练样本来学习出类别数目和“类别的操作定义”同时为训练样本分配类别 - 同类样本间的相似性大于 不同类样本间的相似性
有效性:来自分类算法与样本特征分布的匹配
聚类分析没有完整的理论基础
特征设计对聚类分析的影响
- 特征选取不当,使分类无效
- 特征选取不足,使分类无效
- 特征取多类,有多少个样本n取 n-1个特征的话,整个又太大了
于是,需要降维,主成分分析 - 另外 量纲选取不同 结果也很可能不同
后面有个叫单位化处理,当我们选取一侧量纲过大时,在向量二次范数以上处理时
量纲会有最小识别分别分度,所以 当一侧量纲过大过小 都有影响 - 相似性(距离)测度不同,聚类结果则不同
- 因此 特征,多少个特征,量纲,相似性度量(样本距离)
不知道整个在数学上具体指哪一部分 - 然而 前三个都是经验性的
相似性测度
- 衡量模式之间相似性的一种量度
由n个特征样本组成的n维向量,称为该模式的特征矢量
距离越小 越相似 -
欧式距离(Euclidean)
94DC3167-A35A-4256-A911-CDB3F7AAF965.png
各特征维上应当是相同的物理量
注意同物理量 量纲要一致
-
马氏距离(Mahalanobis)
D3AB0B49-26E8-442A-B4E8-17C260A1EB70.png
协方差各个方向的差别程度
- 明氏距离
-
汉明距离
7FC2B1C1-39D7-43A1-8F94-2FBFE427E4D6.png
位数值不相同的个数 主要用二值的
-
角度相似距离
AB90354B-1E0A-4651-B1C1-886702CF6199.png
量纲不同 会影响结果,但是角度不会受量纲 放大缩小
- Tanimoto测度 BB958CDA-16DF-49CF-8BC4-43D5D913A5C9.png
聚类准则
-根据相似性测度确定的,衡量模式聚类结果中得到的聚类,是否满足某种优化目标的一个判断标准或方法
确定聚类准则的两种方式
1.阀值准则
2.函数准则
-
近邻聚类算法
问题:有N个待分类 -
最大最小聚类法
都是先验经验作为聚类中心,分类到聚类中心 Z1,Z2对应的类别中
1.选任意模式样本组作为第一聚类中心
2.选择离Z1距离最远的样本作为第二聚类中心Z2
3.逐个计算各模式样本Xi与已确定的所有聚类中心Zi之间的距离,
并选出其中的最小距离。例如:当目前聚类中心数k=2时,计算Di1=Xi-Zi -
最大最小聚类算法 已经做过题了 但是 当聚类中心改变 成三者时,差值就很多。
然后θ 其实 和 阀值 和 聚类中心密度,个数 都是有直接关系当 -
层次聚类法
N个初始样本,各自成一类
然后得各个类之间的距离矩阵D(n) NxN
假设已求得距离矩阵D(n) n为逐次聚类合并当次数,两类合并为一类 重新计算
还真是 自底向上构成一个树 -
最短距离法
K-均值算法 就是不断更新聚类中心,用上一次计算出的z值结果,作为下一次的聚类中心 进行计算。
网友评论