高维数据的聚类小记

作者: mashagua | 来源:发表于2019-12-16 16:23 被阅读0次

高维数据的聚类小记
子空间聚类(转)
子空间聚类
空间聚类
机器学习笔记 - 20. EM算法实践（讲师：邹博）
统计模型实际应用场景
面向对象2
14 聚类算法 - 代码案例六- 谱聚类(SC)算法案例
04 聚类算法 - 代码案例一 - K-means聚类
结合K近邻的改进密度峰值聚类算法总结

在高维空间中会出现一些很奇怪的现象，其中之一是数据点和坐标系原点之间的距离增长为维数D的平方根。我们可以看下图

不同维度下的点到中心点的距离

这就说明，欧式空间的距离计算公式不再适用。

聚类的假设和局限性

虽说维度给聚类造成了一定的阻碍，但是很多聚类方法在低纬度下表现也不算太好，通常情况下，我们可以把聚类分成以下四种类型：

基于图的聚类

基于质点的聚类

分层聚类

基于密度的聚类

分层（凝聚）聚类对数据中的噪声过于敏感。基于质心的聚类（KNN，高斯混合模型）只能处理具有球形或椭圆对称性的聚类。基于图形的聚类（Spectral，SNN-cliq，Seurat）对于高维数据可能是最稳健的，因为它使用图上的距离，例如，共享邻居的数量，与欧几里德距离相比，在高维度上更有意义。

但是，要构建图形，此方法仍使用欧几里德距离。此外，必须通过“分辨率”超参数隐式地指定簇的数量。改变超参数可以容易地导致更少或更多的聚类，这在某种程度上是任意的，因此非常不令人满意，因为没有明显的方法来定义用于自动调整超参数的目标函数。在所有聚类算法中，仅基于密度（Mean-Shift，DBSCAN，OPTICS，HDBSCAN）允许聚类而不指定聚类的数量。算法通过向高密度点移动的滑动窗口工作，即它们发现存在许多密集区域。

如何调整HDBSCAN的超参数

聚类是一种无监督的学习问题，这意味着我们不知道基本事实（聚类数），也不能使用交叉验证来优化算法的超参数。然而，有一种方法可以自动优化HDBSCAN的超参数。

HDBSCAN，即分层DBSCAN，是一种强大的基于密度的聚类算法，其是：1）对聚类的形状无关，2）不需要指定聚类的数量，3）对于具有不同密度的聚类是鲁棒的。此外，HBDSCAN非常有吸引力，因为它只有一个超参数minPts，它是群集中最小的点数。对于大型数据集，检测外围单元格相对较快，并且对于每个单元格，它报告分配给集群的概率。具有较低分配概率的细胞部分可以用作优化minPts的目标函数，而minPts又提供最佳数量的聚类。