机器学习 西瓜书 Day11 聚类(下)

作者: 皇家马德里主教练齐达内 | 来源:发表于2018-05-20 01:01 被阅读25次

p202 - p224
今天平平淡淡

第九章 聚类

9.4 原型聚类

原型”是指样本空间中具有代表性的点。

9.4.1 k-means

针对所得簇最小化平方误差
想要最小化平方误差 是一个NP难问题
因此使用了贪心策略

算法伪码:p203 图9.2

算法开始随机选取样本作为初始均值向量
考察每个样本,与哪个均值向量最近,从而分到哪个簇
分完一轮之后更新均值向量
重复以上过程直至收敛。

9.4.2 学习向量量化(LVQ)

也是试图找到一组原型向量。
但LVQ假设数据样本带有标记,利用这些监督信息来辅助聚类。

LVQ的目的是学得一组n维原型向量,每个向量代表一个簇

算法伪码:p205 图9.4
先初始化原型向量。
每一轮迭代中,随机选取一个有标记的训练样本,找到和他最近的原型向量,并根据两者的类别标记决定如何更新。如果一样,则将原型更靠近一些。不一样,则远离一些。

可以这样理解:每个原型向量定义了与之相关的一个区域。
这些区域形成一个划分。
该划分通常称为“Voronoi划分”

9.4.3 高斯混合聚类

与上两个不同,高斯混合聚类采用概率模型来表达聚类原型。
p206 - 210。
比较数学。

9.5 密度聚类

基于密度的聚类假设聚类结构能通过样本分布的紧密程度来确定

DBSCAN,基于一组邻域参数来刻画紧密程度。
ε-邻域、核心对象、密度直达、密度可达、密度相连的定义。p212

从而DBSCAN对“簇”进行了定义:
连续性:同一个簇的必然密度相连。
最大性:每个都不可再扩大。

那么如何找到满足上面性质的簇呢?不难证明,由x密度可达的所有样本组成的集合就是一个簇。

于是,DBSCAN先选一个样本作为种子。找簇。一直下去直到找完。

9.6 层次聚类

形成树形的聚类结构。
既可以从上往下,也可以从下往上。

AGNES:从下往上。
把每个样本看成一个初始聚类簇,然后每一步对两个最近的合并。直到簇数达到要求。

簇间距离的刻画:最小距离/最大距离/平均距离。
伪码 p215 图9.11

相关文章

  • 机器学习 西瓜书 Day11 聚类(下)

    p202 - p224今天平平淡淡 第九章 聚类 9.4 原型聚类 “原型”是指样本空间中具有代表性的点。 9....

  • 《机器学习》西瓜书学习笔记(六)

    上一篇笔记在这里:《机器学习》西瓜书学习笔记(五) 第九章 聚类 9.1 聚类任务 无监督学习(unsupervi...

  • 机器学习 西瓜书 Day10 聚类(上)

    p197 - p201Day09偷懒了,所以兑现flag,今天多看一些。 第九章 聚类 9.1 聚类任务 无监督学...

  • 机器学习----聚类

    接着机器学习系列文章的脚印,今天介绍一下机器学习的无监督算法--聚类, 内容主要包括以下几个部分:(1)常见的聚类...

  • 3.1.1.9 聚类

    聚类 原理 《机器学习》周志华 9.1 聚类任务 在“无监督学习”(unsupervised learning)中...

  • 第一章 回归,分类 & 聚类

    •分类数据 •数据回归分析 •聚类数据 •如何构建机器学习问题 虽然还有其他模型,但是回归,分类和聚类在机器学习问...

  • 9.machine_learning_clusting_and_

    机器学习聚类与降维 机器学习中的聚类算法 聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的...

  • 机器学习-聚类

    简介 前面介绍的线性回归,SVM等模型都是基于数据有标签的监督学习方法,本文介绍的聚类方法是属于无标签的无监督学习...

  • 聚类算法

    #聚类算法 标签(空格分隔): 机器学习 聚类算法 --- ###聚类算法的原理 无监督算法,相似的样本自动归...

  • 技术积累

    数学基础 MCMC 采样 MCMC 采样 一、机器学习 1、无监督学习 聚类 Kmeans 聚类 降维 PCA 理...

网友评论

    本文标题:机器学习 西瓜书 Day11 聚类(下)

    本文链接:https://www.haomeiwen.com/subject/iylzdftx.html