聚类算法概述及比较

作者: TisUs | 来源:发表于2018-07-18 14:19 被阅读0次

聚类(Clustering)分析是一个无监督学习(Unsupervised learning)过程，所谓物以类聚，人以群分。

其本质是：寻找联系紧密的事物进行区分，将数据划分为有意义或有用的簇

目标是：同簇内的数据对象的相似性尽可能大，不同簇间的数据对象的差异性尽可能大。

核心是：相似度计算

回顾一下：无监督学习(Unsupervised learning)：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

具体包含：

划分聚类      层次聚类       基于密度     基于图论          基于网格         基于模型

K-means DIANA OPTICS Spectral STING COBWeb
K-medoids BIRCH DBSCAN CLIQUE CLASSIT
CLARANS Chameleon FDC WAVE-CLUSTER SOM

新发展的方法:

基于约束基于模糊基于粒度量子聚类核聚类谱聚类
COD (Clustering
with Ob2structed
Distance) FCM SVDD/SVC 图论中的谱图

划分法（Partitioning methods）:

给定一个有N个元组或者记录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类

每一个分组至少包含一个数据记录

每一个数据记录属于且仅属于一个分组（模糊聚类除外）

对于给定的K，算法首先给出一个初始的分组方法，之后通过反复迭代的方法改变分组，

使得每一个改进之后的分组方案都较前一次好

标准：同一分组中的记录越近越好，而不同分组中的记录越远越好

层次法（Hierarchical Clustering）:

对给定的数据集进行层次似的分解，

直到某种条件满足为止。

分为“自底向上”和“自顶向下”两种方案。

    "自底向上"方案:  初始时每一个数据记录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合    并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。

基于密度的聚类（density-based methods）:

核心思想: 只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。

与其他方法的一个根本区别是: 它不是基于各种各样的距离的，而是基于密度的。这样能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

基于图的聚类（Graph-based methods）：

建立与问题相适应的图，图的节点对应被分析数据的最小单元，

图的边（或弧）对应于最小处理单元数据之间的相似性度量。

每一个最小处理单元数据之间都会有一个度量表达，这就确保了数据的局部特性比较易于处理。

图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源，因而其主要优点是易于处理局部数据的特征。

基于网格的方法（grid-based methods）:

将数据空间划分成为有限个单元（cell）的网格结构，所有的处理都是以单个的单元为对象的。

优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。

基于模型的方法（model-based methods）:

给每一个聚类假定一个模型，

然后去寻找能够很好的满足这个模型的数据集。

这样一个模型可能是数据点在空间中的密度分布函数或者其它。

潜在的假定：

目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向：

统计的方案和神经网络的方案。

聚类各效果.png

compare.png

sklearn_clustering.png

map详细: http://scikit-learn.org/stable/tutorial/machine_learning_map/

网友评论

本文标题：聚类算法概述及比较

本文链接：https://www.haomeiwen.com/subject/kouopftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

聚类算法概述及比较

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读