美文网首页
第四章 无监督学习:聚类

第四章 无监督学习:聚类

作者: etheon | 来源:发表于2019-04-28 16:38 被阅读0次

动机

聚类的目标是将数据集分组。
质心、层级聚类、识别噪声、距离限制


K-means

1.算法
2.如何选择K值
选择对inertia_贡献效果已经不显著的K值点。


近邻算法

结果稳定可重现,训练前无需指定分组数目。
1.生活化理解
质心、参考度、相似度、责任度、可用度


高斯混合模型

假设训练数据集是在若干多元高斯分布中随机采样获得的结果,因此学习的目的就是获得这些高斯分布的均值与方差。
1.中心极限定理
大量随机变量累计分布函数逐渐收敛到高斯分布的累积分布函数。
概率模型优点:与其粗略给出一个分组,不如给出其所属分组和相应的概率。
2.最大似然估计
最大似然估计的目标是找到在给定样本集D的情况下能使似然度值最大化的一组模型参数H。
EM算法
3.几种协方差矩阵类型
高斯分布相关模型通过选择协方差矩阵类型适当减少协方差矩阵中的待求变量。
球面协方差矩阵、对角协方差矩阵、完全协方差矩阵、绑定协方差矩阵


密度聚类

DBSCAN。没有绝对中心点,能更好的聚类非凸数据集,不需要在训练前指定分组数量。
1.凸数据集
凸数据集的概念可以作为选择模型算法的重要依据。
线性模型:线性回归、朴素贝叶斯、线性核SVM,欧式距离K-menas,AP,GMM。
非线性模型:RBF核的SVM,高斯过程,代核的K-means,非欧距离的AP。
2.密度算法
密度用来衡量样本在特征空间上分布的紧凑情况。
相关概念:邻域、邻居、MinPts、核心点、噪声点、边界点。


BIRCH

层次型聚类算法。可以给出聚类后分组之间的亲缘关系,训练时间复杂度最低,只适合凸数据集。
1.层次模型综述
刻画聚类分组之间的亲缘关系非常有意义。
建树由底向上:CURE,BIRCH(效率最高),ROCK(是用高维特征样本),Chameleon(适配非凸数据)
建树由顶向下:Bisecting K-means
2.聚类特征树


距离计算

1.闵式距离
闵科夫斯基距离,描述等长数值向量的距离。
根据闵式距离的次数p,p=1是曼哈顿距离,p=2是欧式距离。
2.马氏距离
闵式距离没有考虑维度的权重和相关性。
马哈拉诺比斯距离。
3.余弦相似度
使用向量的角度作为度量标准。
4.时间序列比较
针对特征维度数量不同的场景。
DTW动态时间规整。
5.杰卡德相似度
针对特征维度是布尔量的场景。


聚类评估

1.带真实值的评估
2.不带真实值的评估

相关文章

网友评论

      本文标题:第四章 无监督学习:聚类

      本文链接:https://www.haomeiwen.com/subject/cfzdnqtx.html