美文网首页
Kmeans笔记

Kmeans笔记

作者: 进击的小恶魔 | 来源:发表于2019-03-31 18:15 被阅读0次

训练过程中,没有标签,属于无监督学习。

image.png

层次聚类有包含关系,非层次聚类没有包含关系


image.png image.png 聚类评价方法

举个例子:
外部评价方法:有1亿篇文章没有划分类别,有1000篇已经划分好了类别,先对1亿篇文章进行聚类,然后再用这1000篇作为测试,检验聚类划分的一致性如何。

内部评价 示意图

DB的最大值越小越好。

外部量化评价

简写:
准确度 auc
精度 P
召回率 R
F值
β=1,通常称为F1-score表示P和R同等重要。
β越大,说明越关心recall
β越小,说明越关心精度

凝聚层次聚类算法描述.png 凝聚层次聚类树状图描述

最终是聚成了一个类,聚类的过程是已经存储下来了,实际上业务需求需要几个类(或者也叫做聚类的高度),直接去取就可以了。

image.png

如果实际上 BCDE 应该聚合在一起,但是实际上没有聚合在一起,那么可能是给的特征有问题,不是算法的锅,这个时候需要去调特征。

image.png

质心是组合距离。

类间距计算

计算复杂度是一样的

image.png

=======================

  • Kmeans K平均聚类


    kmeans平均聚类算法
image.png image.png image.png

基于密度聚类:DBScan
基于高斯分布:GMM

image.png

硬聚类就是把数据确切地分到某一类中,比如K-Means。
硬就是说“强硬”,是属于A类就是A类,不会跑到B类。
软聚类就是把数据以一定的概率分到各类中,比如高斯混合模型(GMM),比如模糊C均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是0.7,在B类的概率是0.3。
软聚类又称为模糊聚类(fuzzy clustering)。

相关文章

网友评论

      本文标题:Kmeans笔记

      本文链接:https://www.haomeiwen.com/subject/ryjebqtx.html