问题汇总（4）：聚类

作者: 大王叫我来巡老和山 | 来源:发表于2019-03-25 16:44 被阅读0次

问题汇总（4）：聚类
ROC-AUC 曲线以及PRC曲线
elasticsearch aggregation
4 聚类 - 高斯混合聚类
聚类算法总结
集成聚类回顾
常用的聚类方法
空间聚类算法简述
聚类问题建模
JavaCV FrameGrabber问题汇总

聚类说实话除了K-means，其他的我都不太懂，，，~~不懂也得写啊！！！~~

目录：
机器学习常见面试问题汇总
 问题汇总（1）：逻辑回归
 问题汇总（2）：支持向量机
 问题汇总（3）：树模型
 问题汇总（4）：聚类
 问题汇总（5）：神经网络
 问题汇总（6）：EM算法
 问题汇总（7）：朴素贝叶斯

聚类算法有哪些？

聚类算法概览

基于分层
基于划分
基于密度
基于模型
基于网格

K-Means

伪代码：

选取k个初始质心（作为初始cluster）；
repeat：
    对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster；
    重新计算k个cluser对应的质心；
until 质心不再发生变化

K-Means的主要优点有：
1）原理比较简单，实现也是很容易，收敛速度快。
2）聚类效果较优。
3）算法的可解释度比较强。
4）主要需要调参的参数仅仅是簇数k。

K-Means的主要缺点有：
1）K值的选取不好把握，以及最开始质心的位置选取与结果关系也很大。
2）对于不是凸的数据集比较难收敛。
3）如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。
4）采用迭代方法，得到的结果只是局部最优。
5） k-means把任何点都归到了某一个类，对噪音和异常点比较的敏感。

如何确定K值的选取？