聚类常用方法介绍

聚类常用方法介绍

作者: 九月_1012 | 来源:发表于2019-04-11 17:17 被阅读0次

聚类步骤

1.数据清洗
2.选择模型
细节：避免loop（for循环），影响速度；
密度聚类，不需要给出具体几类，k-means需要告诉有几类；
3.距离度量
归一化、余弦相似性（空间夹角距离）、
词向量
4.方法
周志华西瓜书、李恒的统计学书
5.代码
包 sklearn cluster

image.png

image.png

image.png

image.png

4、贪心、迭代算法

下图为k-means
1.随机选两个点，质心，算离得近的，分为两类；迭代；不断的更新簇，更新质心；收敛。
soft-clustering 、hard-clustering（必须分到某组）

image.png

image.png

image.png

先是随机选质心，然后质心更新，迭代，距离变小，更收敛。

image.png

k-means缺点：只能局部最优，第二幅图才是全局最优，未做到。

image.png

image.png

初始化问题如下：此外对噪声敏感（因为依赖平均值）

image.png

如何优化：（Kmeans++解决初始化敏感问题）选择质心1，再选择相对较远的质心2，再选择离1、2都挺远的质心3

image.png

举例来说：码农-前端-后端（层次）两种方法：自底向上、自顶向下

image.png
计算复杂度高，层次聚类的几种方法：最短距离法、最长距离法、中间距离法、平均距离法（类与类的距离）、

image.png

image.png

计算复杂度高，不适合大样本；某两个连接、某两类连接

image.png
DBSCAN：处理噪声、离心值、依赖密度，而不是距离。不需要质心。imbalanced数据也适用。不用设置k、不用设置圆形，只需要设置中心、半径（阈值）。（DBSCAN是个很不错的聚类算法呀），当不知道数据特性时，适合用DBSCAN。

image.png

image.png
x1为核心对象eps，
密度直达：x1，x2
密度可达：x1，x3
密度相连：x3、x4

image.png

image.png

image.png

核心点、半径

image.png

image.png
2-4；一般为4；多维的话，中银对象选择一场关键，多选几个中心对象试试。

image.png
发现拐点

image.png

image.png
模型：概率生成模型

image.png
GMM求每个点数据哪个类的概率。soft clustering。类与类之间有叠加。计算复杂度比kmeans

image.png

image.png

参考：万门大学关于聚类讲解
https://blog.csdn.net/zouxy09/article/details/17589329

相关文章

网友评论

本文标题：聚类常用方法介绍

本文链接：https://www.haomeiwen.com/subject/bgkxwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|聚类常用方法介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！