Mean-Shift和K-Means结合的实践

作者: Rethinkpossible | 来源:发表于2018-08-10 10:16 被阅读0次

Mean-Shift和K-Means结合的实践
7M推荐系统 - S2 内部推荐和排序架构
Low-level-vis_NIPS(16'~18')
python mean-shift数据分析(1)
实践和理论相结合
认识世界和改造世界
K-means 实践记录
白玉花果的一般老化特征和老光特征，跟仿品比较
08 聚类算法 - 聚类算法的衡量指标
课前：理念与准备

我们谈及数据挖掘，无非是“分类”，“关联”，“聚类”，“异常值检验”等。今天我想聊聊对聚类的认识，以及基于密度聚类下生成的初始化簇心与K-Means的结合。

不同的聚类算法有不同的应用场景，适合不同分布、不同属性、不同数量级的数据集，从这个角度就意味着聚类算法可以进行各种各样的变形和改进。Mean-Shift算法能根据数据自身的密度分布，自动学习到类的数目，但类别数目不一定是我们想要的。而K-Means对噪声的鲁棒性没有Mean-Shift强，且Mean-Shift是一个单参数算法，容易作为一个模块和别的算法集成。因此我在这里，将Mean-Shift聚类后的质心作为K-Means的初始中心进行聚类。下图是Mean-Shift和K-Means结合的步骤。

对于非监督降维算法，可以参考网址(1)。那降多少维呢？如果不多，性能提升不大；如果目标维度太小，则又丢失了很多信息。我在这里选取了99%的主成分贡献度作为标准，来选择目标维度大小。除了PCA线性方法外，对于非线性数据集，sklearn也有改进的Kernel PCA。除了PCA外，还有就是Feature Agglomeration的降维方法，直接对特征进行聚类，从而起到降维效果。关于降维在聚类中的应用，感觉谱聚类（Spectral Clustering）效果较好。简单的说，就是构建拉普拉斯矩阵，并归一化，再进行特征分解，最后用K-Means对最小的N个特征向量进行聚类。

在代码实验中，单独用Mean-Shift以及根据Silhouette评分自动选择k值的K-Means在聚类结果上几乎一样。