十二.聚类算法：K-Means和GMM

十二.聚类算法：K-Means和GMM

作者: 愿风去了 | 来源:发表于2018-10-25 17:25 被阅读6次

十二.聚类算法：K-Means和GMM
05 聚类算法 - 二分K-Means、K-Means++、K-
07 聚类算法 - 代码案例三 - K-Means算法和Mini
06 聚类算法 - 代码案例二 - K-Means算法和Mini
08 聚类算法 - 聚类算法的衡量指标
谱聚类
机器学习（8）——其他聚类
聚类算法之K均值算法(k-means)的Python实现
大数据--聚类算法
密度聚类算法——DBSCAN

聚类算法是一种无监督机器学习模型，可以直接从数据内在的性质中学习最优的划分结果或者确定离散标签类型。

k-maens算法在不带标签的多维数据集中寻找确定数量的簇。最优的聚类结果需要符合以下两个假设：

（1）“簇中心点”（cluster center）是属于该簇的所有数据点坐标的算术平均值；

（2）一个簇的每个点到该簇中心点的距离，比到其他簇中心点的距离短。

这两个假设是k-means模型的基础。

k-maens算法：期望最大化

算法在对数据分簇时，为了避免使用穷举法这种耗费大量时间和计算量的方法。

我们采用期望最大化（EM）算法，该方法包含以下步骤：

（1）猜测一些簇中心点；

（2）重复直至收敛。

a.期望步骤（E-step）：将点分配至离其最近的簇中心点。

b.最大化步骤（M-step）:将簇中心点设置为所有点坐标的平均值。

创建一部分数据：

使用聚类方法对上数据分类：

上述函数解释了期望最大化方法的核心内容。

期望最大化算法存在的问题

（1）可能无法达到全局最优结果

虽然EM最终收敛了，但是最终分类结果并不是全局最优配置。

（2）簇数量必须事先确定

必须告诉算法，簇的具体数量，因为算法无法从数据中自动学习到簇的数量。

（3）k-means算法只能确定线性聚类边界

k-means聚类边界总是线性的，当簇中心点呈现出非线性的复杂形状时，算法会失效。

（5）当数据量很大时，k-means会很慢

由于k-means每次迭代都要获取所有数据点，因此随着数据量的增加，算法会越来越慢。

解决办法时采用一种批处理方式，每次更新一个数据子集簇的中心点，在sklearn.cluster.MiniBatchKMeans中实现。

其它算法

针对k-means非概率性和仅根据簇中心点距离来指派簇的特点存在的问题。

提出了高斯混合模型（GMM）。

GMM通常被归类为聚类算法，但它本质上是一个密度估计算法。换言之，一个GMM的拟合结果并不是一个聚类模型，而是描述数据分布的生成概率模型。

如果采用高斯曲线的混合形式，可以实现对输入数据的总体分布建模，从而生成和输入数据分布类似的函数模型。因此，对于非线性数据，通过概率分布估计可以很好的拟合。

成分

GMM通过确定对应最优成分数量，对输入数据的总体分布建模。

4个成分GMM

16个成分GMM

k-means应用

用于对图像色彩的压缩。

压缩前1600万种颜色

压缩为16种颜色类

每个像素被指定为了距离其最进簇中心点的颜色，最终得到了16类的颜色值。

对比

虽然压缩后右图明显丢失了一部分“信息”，但是整体图像并没有改变，并且实现了将近一百万倍的压缩比！

相关文章

十二.聚类算法：K-Means和GMM
聚类算法是一种无监督机器学习模型，可以直接从数据内在的性质中学习最优的划分结果或者确定离散标签类型。 k-maen...
05 聚类算法 - 二分K-Means、K-Means++、K-
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类三、K-Means算...
07 聚类算法 - 代码案例三 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
06 聚类算法 - 代码案例二 - K-Means算法和Mini
03 聚类算法 - K-means聚类04 聚类算法 - 代码案例一 - K-means聚类05 聚类算法 - 二...
08 聚类算法 - 聚类算法的衡量指标
07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估四、聚类...
谱聚类
聚类问题可以分为两种思路： Compactness，这类有 K-means，GMM 等，但是这类算法只能处理凸集，...
机器学习（8）——其他聚类
层次聚类紧接上章，本章主要是介绍和K-Means算法思想不同而的其他聚类思想形成的聚类算法。 k-means算法...
聚类算法之K均值算法(k-means)的Python实现
聚类算法之K均值算法(k-means) 算法简介 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方...
大数据--聚类算法
本篇结构简介聚类算法的分类 K-Means聚类算法 DBSCAN聚类算法本篇介绍了聚类算法的种类，重点关注K...
密度聚类算法——DBSCAN
Clustering 聚类密度聚类——DBSCAN 前面我们已经介绍了两种聚类算法：k-means和谱聚类。今天...

网友评论

本文标题：十二.聚类算法：K-Means和GMM

本文链接：https://www.haomeiwen.com/subject/xpsctqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|十二.聚类算法：K-Means和GMM|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！