美文网首页
高维数据的聚类小记

高维数据的聚类小记

作者: mashagua | 来源:发表于2019-12-16 16:23 被阅读0次

在高维空间中会出现一些很奇怪的现象,其中之一是数据点和坐标系原点之间的距离增长为维数D的平方根。我们可以看下图

不同维度下的点到中心点的距离

这就说明,欧式空间的距离计算公式不再适用。

聚类的假设和局限性

虽说维度给聚类造成了一定的阻碍,但是很多聚类方法在低纬度下表现也不算太好,通常情况下,我们可以把聚类分成以下四种类型:

基于图的聚类

基于质点的聚类

分层聚类

基于密度的聚类

分层(凝聚)聚类对数据中的噪声过于敏感。基于质心的聚类(KNN,高斯混合模型)只能处理具有球形或椭圆对称性的聚类。基于图形的聚类(Spectral,SNN-cliq,Seurat)对于高维数据可能是最稳健的,因为它使用图上的距离,例如,共享邻居的数量,与欧几里德距离相比,在高维度上更有意义。

但是,要构建图形,此方法仍使用欧几里德距离。此外,必须通过“分辨率”超参数隐式地指定簇的数量。改变超参数可以容易地导致更少或更多的聚类,这在某种程度上是任意的,因此非常不令人满意,因为没有明显的方法来定义用于自动调整超参数的目标函数。在所有聚类算法中,仅基于密度(Mean-Shift,DBSCAN,OPTICS,HDBSCAN)允许聚类而不指定聚类的数量。算法通过向高密度点移动的滑动窗口工作,即它们发现存在许多密集区域。

如何调整HDBSCAN的超参数

聚类是一种无监督的学习问题,这意味着我们不知道基本事实(聚类数),也不能使用交叉验证来优化算法的超参数。然而,有一种方法可以自动优化HDBSCAN的超参数。

HDBSCAN,即分层DBSCAN,是一种强大的基于密度的聚类算法,其是:1)对聚类的形状无关,2)不需要指定聚类的数量,3)对于具有不同密度的聚类是鲁棒的。此外,HBDSCAN非常有吸引力,因为它只有一个超参数minPts,它是群集中最小的点数。对于大型数据集,检测外围单元格相对较快,并且对于每个单元格,它报告分配给集群的概率。具有较低分配概率的细胞部分可以用作优化minPts的目标函数,而minPts又提供最佳数量的聚类。

相关文章

  • 高维数据的聚类小记

    在高维空间中会出现一些很奇怪的现象,其中之一是数据点和坐标系原点之间的距离增长为维数D的平方根。我们可以看下图 这...

  • 子空间聚类(转)

    原链接:漫谈高维数据聚类(2):子空间聚类[https://xijunlee.github.io/2016/12/...

  • 子空间聚类

    姓名:贺文琪 学号:19021210758 【嵌牛导读】聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类...

  • 空间聚类

    对POI数据进行空间聚类,以高德学校数据为例,下图为数据空间分布:image 以下是聚类的Python代码,获得2...

  • 机器学习笔记 - 20. EM算法实践(讲师:邹博)

    主要内容 多维高斯混合分布聚类 EM算法的聚类效果或许比K均值聚类好一些。 如图,对于二维数据形成概率密度曲线,或...

  • 统计模型实际应用场景

    参考常用统计模型: 决策树&回归&K均值聚类&因子分析分别对应数据分析的思路:分类,回归,聚类,降维。 1 决策树...

  • 面向对象2

    封装性 1.高内聚,低耦合:高内聚:类内部数据操作细节不允许外部干涉低耦合:对外暴露少量的方法2.修饰类:只能使用...

  • 14 聚类算法 - 代码案例六- 谱聚类(SC)算法案例

    13 聚类算法 - 谱聚类 需求 使用scikit的相关API创建模拟数据,然后使用谱聚类算法进行数据聚类操作,并...

  • 04 聚类算法 - 代码案例一 - K-means聚类

    03 聚类算法 - K-means聚类 本案例数据来源:基于scikit包中的创建模拟数据的API创建聚类数据。 ...

  • 结合K近邻的改进密度峰值聚类算法总结

    结合K近邻的改进密度峰值聚类算法总结 解决的问题: 解决了处理维数较高,含噪声及结构复杂数据集时聚类性能不佳等问题...

网友评论

      本文标题:高维数据的聚类小记

      本文链接:https://www.haomeiwen.com/subject/vitzdctx.html