美文网首页
Kmeans笔记

Kmeans笔记

作者: 进击的小恶魔 | 来源:发表于2019-03-31 18:15 被阅读0次

    训练过程中,没有标签,属于无监督学习。

    image.png

    层次聚类有包含关系,非层次聚类没有包含关系


    image.png image.png 聚类评价方法

    举个例子:
    外部评价方法:有1亿篇文章没有划分类别,有1000篇已经划分好了类别,先对1亿篇文章进行聚类,然后再用这1000篇作为测试,检验聚类划分的一致性如何。

    内部评价 示意图

    DB的最大值越小越好。

    外部量化评价

    简写:
    准确度 auc
    精度 P
    召回率 R
    F值
    β=1,通常称为F1-score表示P和R同等重要。
    β越大,说明越关心recall
    β越小,说明越关心精度

    凝聚层次聚类算法描述.png 凝聚层次聚类树状图描述

    最终是聚成了一个类,聚类的过程是已经存储下来了,实际上业务需求需要几个类(或者也叫做聚类的高度),直接去取就可以了。

    image.png

    如果实际上 BCDE 应该聚合在一起,但是实际上没有聚合在一起,那么可能是给的特征有问题,不是算法的锅,这个时候需要去调特征。

    image.png

    质心是组合距离。

    类间距计算

    计算复杂度是一样的

    image.png

    =======================

    • Kmeans K平均聚类


      kmeans平均聚类算法
    image.png image.png image.png

    基于密度聚类:DBScan
    基于高斯分布:GMM

    image.png

    硬聚类就是把数据确切地分到某一类中,比如K-Means。
    硬就是说“强硬”,是属于A类就是A类,不会跑到B类。
    软聚类就是把数据以一定的概率分到各类中,比如高斯混合模型(GMM),比如模糊C均值模型(Fuzzy c-Means)。聚类的结果往往是样本1在A类的概率是0.7,在B类的概率是0.3。
    软聚类又称为模糊聚类(fuzzy clustering)。

    相关文章

      网友评论

          本文标题:Kmeans笔记

          本文链接:https://www.haomeiwen.com/subject/ryjebqtx.html