机器学习 西瓜书 Day10 聚类(上)

作者: 皇家马德里主教练齐达内 | 来源:发表于2018-05-19 01:18 被阅读16次

    p197 - p201
    Day09偷懒了,所以兑现flag,今天多看一些。

    第九章 聚类

    9.1 聚类任务

    无监督学习:label未知。
    研究最多,应用最广的是聚类。

    聚类将样本划分为若干个不相交的子集:每个子集称为一个“

    聚类算法将D划分为k个不相交的簇,C1,C2,..Ck
    用λj 表示xj的簇标记。

    两个基本问题:性能度量,距离计算

    9.2 性能度量

    结果咋才叫好? 聚类结果的簇内相似度高且簇间相似度低。

    性能度量的两大类:
    1)与某个参考模型进行比较,称为外部指标
    2)直接考察而不利用参考模型,称为内部指标

    定义abcd,a = |SS|,b = |SD|..
    基于abcd定义了一些外部指标:
    Jaccard系数(JC),FM指数(FMI),Rand指数(RI)。越大越好

    dist:两个样本的距离。
    μ:簇的中心点。
    avg(C):簇C内样本间平均距离、
    diam(C):簇C内样本最远距离
    dmin
    dcen

    基于以上导出内部指标,DB指数(DBI),Dunn(DI)。
    DBI越小越好,DI越大越好。

    9.3 距离计算

    如何计算dist?

    距离要满足一些性质:p199-200 。
    值得注意的是直递性

    给定两个样本,最常用的是闵可夫斯基距离
    p= 2 欧氏距离
    p = 1 曼哈顿距离

    Mink distance适用于有序属性,如(1,2,3),而不是(飞机,货车,轮船)

    对无序属性可采用VDM距离

    还有需注意的是:
    用于度量相似性而定义的距离不一定非要满足那些性质,尤其是直递性。
    如人、马、人马。
    人 like 人马
    马 like 人马
    但人和马距离大。
    不满足直递性。
    这样的距离成为“非度量距离”。

    因此,在现实任务中,有必要基于数据样本来确定合适的距离计算式,可通过“距离度量学习”来实现

    相关文章

      网友评论

        本文标题:机器学习 西瓜书 Day10 聚类(上)

        本文链接:https://www.haomeiwen.com/subject/oetodftx.html