美文网首页
学习笔记-机器学习-(10)聚类

学习笔记-机器学习-(10)聚类

作者: 饼干和蛋糕 | 来源:发表于2019-03-21 22:29 被阅读0次

吴恩达-机器学习课程--13:Clustering 的学习总结:

最常见的非监督算法:K-means算法

假如想把以下训练集训练分为两簇

随机选择两点,一部分点离红点更近,一部分点离蓝点更近

移动两点至已分好的两类点的均值处,再次根据数据集离红蓝两点的距离分为两部分

重复以上步骤,直至收敛

更为正式的定义如下:

算法输入:

K (数据的聚类数)

训练集 {x1,x2x3 ...,xn) 

算法:

随机初始化聚类中心 {μ1,μ2,μ3 ... μK}

c^i 的值是一个1-K的数,表示离x^i最近的是 {μ1,μ2,μ3 ... μK}中的哪个聚类中心

可以表示为计算x^i离每个聚类中心的距离,求出让距离最小的那个k值(出于惯例用平方表示)

对于没有被很明确的分开的数据使用K-means算法

K-means算法的优化目标:distortion cost function

其中:

举例

初始化聚类中心

选择K个样本点作为聚类中心,但可能选择的聚类中心,优化代价函数得到局部最优解,也就是不能很恰当的进行聚类。所以要多进行几次随机初始化聚类中心,选择最优解。

如果K较小,在2-10内, 一般进行50-1000次随机初始化聚类中心,能得到更好的聚类结果。但如果K很大,一般不用很多次就能得到良好的聚类结果。

聚类数K的选择:

并没有一个绝对正确或错误的K值,所以一般是手工选择,而不是自动产生

可以参考的方法:Elbow method

画出K vs J()的图,选择拐点,但并不是总能得到这样有清晰拐点的图

相关文章

  • 学习笔记-机器学习-(10)聚类

    吴恩达-机器学习课程--13:Clustering 的学习总结: 最常见的非监督算法:K-means算法 假如想把...

  • 《机器学习》西瓜书学习笔记(六)

    上一篇笔记在这里:《机器学习》西瓜书学习笔记(五) 第九章 聚类 9.1 聚类任务 无监督学习(unsupervi...

  • 3.1.1.9 聚类

    聚类 原理 《机器学习》周志华 9.1 聚类任务 在“无监督学习”(unsupervised learning)中...

  • 机器学习笔记(17):聚类(2)

    本文来自之前在Udacity上自学机器学习的系列笔记。这是第17篇,介绍了什么是聚类(2),介绍软聚类(高斯混合聚...

  • 《机器学习》从零开始学 系列学习笔记

    《机器学习》从零开始学 系列学习笔记 是聚宽社区用户 混沌 在聚宽社区分享的个人学习笔记,内容详实,对机器学习爱好...

  • 9.machine_learning_clusting_and_

    机器学习聚类与降维 机器学习中的聚类算法 聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的...

  • 《机器学习》笔记-聚类(9)

    写在最前面 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中...

  • 周志华《机器学习》笔记-聚类

    这是我看西瓜书时做的笔记,由于公式很多并且简书不支持LaTeX公式,所以只能传PDF截图了,可以在这里获得完整PDF。

  • 第一章 回归,分类 & 聚类

    •分类数据 •数据回归分析 •聚类数据 •如何构建机器学习问题 虽然还有其他模型,但是回归,分类和聚类在机器学习问...

  • 机器学习-聚类

    简介 前面介绍的线性回归,SVM等模型都是基于数据有标签的监督学习方法,本文介绍的聚类方法是属于无标签的无监督学习...

网友评论

      本文标题:学习笔记-机器学习-(10)聚类

      本文链接:https://www.haomeiwen.com/subject/utccvqtx.html