统计学习方法——修炼学习笔记14：聚类方法

统计学习方法——修炼学习笔记14：聚类方法

作者: Sam_L | 来源:发表于2020-04-13 20:50 被阅读0次

统计学习方法——修炼学习笔记14：聚类方法
《统计学习方法》第 14 章聚类方法 KMeans
统计学习方法笔记(第四章个人笔记)
关于学习：第三章（上）
从程序员的角度说统计学习方法概论
2018-08-12
统计机器学习基本概念
统计学习方法——修炼学习笔记8：提升方法
9.machine_learning_clusting_and_
Python机器学习应用

一、聚类的基本概念

1、相似度或距离

image.png

聚类的核心概念是相似度或距离。有多种相似度或距离的定义。因为相似度直接影响聚类的结果，所以其选择是聚类的根本问题。

（1）闵可夫斯基距离

闵可夫斯基距离越大相似度越小，距离越小相似度越大。

image.png

（2）马哈拉诺比斯距离（马氏距离）

另一种常用的相似度，考虑各个分量（特征）之间的相关性并与各个分量的尺度无关。
马哈拉诺比斯距离越大相似度越小，距离越小相似度越大。

image.png

（3）相关系数

样本之间的相似度也可以用相关系数来表示
相关系数的绝对值越接近于1，表示样本越相似。
越接近于0，表示样本越不相似。

image.png

（4）夹角余弦

样本直接的相似度也可用夹角余弦表示。
夹角余弦越接近于1，表示样本越相似。
越接近于0，表示样本越不相似。

image.png

image.png

2、类或簇

通过聚类得到的类或簇，本质是样本的子集。
如果一个聚类方法假定一个样本只能属于一个类，或类的交集为空集，那么该方法称为硬聚类方法。
如果一个样本可以属于多个类，或类的交集不为空集，那么该方法称为软聚类方法。

image.png

类的特征可以通过不同角度来刻画，常用的特征有下面三种：

image.png

3、类与类之间的距离

image.png

二、层次聚类

层次聚类假设类别之间存在层次结构，将样本聚到层次化的类中。
层次聚类又有聚合或自下而上聚类，分裂或自上而下聚类两种方法
因为每个样本只属于一个类，所以层次聚类属于硬聚类。

聚合聚类开始将每个样本各自分到一个类，之后将相距最近的两类合并，建立一个新的类，重复此操作直到满足停止条件得到层次化的类别。

分裂聚类开始将所有样本分到一个类，之后将已有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件得到层次化的类别。

聚合聚类的具体过程：

对于给定的样本集合，开始将每个样本分到一个类
然后按照一定规则，例如类间距距离最小，将最满足规则条件的两个类进行合并
如此反复进行，每次减少一个类，直到满足停止条件，如所有样本聚为一类。

聚合聚类需要预先确定三个要素：

image.png

聚合聚类算法

image.png

三、k均值聚类

k均值聚类是基于样本集合划分的聚类算法。
k均值聚类将样本集合划分为k个子集，构成k个类，将n个样本分到k个类中，每个样本到其所属类的中心的距离最小。
每个样本只能属于一个类，所以k均值聚类是硬聚类。

1、模型

image.png

2、策略

k均值聚类归结为样本集合X的划分，或者从样本到类的函数的选择问题。
k均值聚类的策略是通过损失函数的最小化选取最优的划分或函数C*

image.png

k均值聚类即使求解最优化问题：

image.png

3、算法

k均值聚类的算法是一个迭代的过程，每次迭代包括两个步骤。

选择k个类的中心，将样本逐个指派到与其最近的中心的类中，得到一个聚类结果
然后更新每个类的样本的均值，作为类的新的中心
重复以上步骤，直到收敛为止。

具体过程：

image.png

k均值聚类算法

image.png

4、算法特征

（1）总体特点

image.png

（2）收敛性

k均值聚类属于启发式方法，不能保证收敛到全局最优，初始中心的选择会直接影响聚类结果。
注意：类中心在聚类的过程中会发生移动，但是往往不会移动太大，因为在每一步，样本被分到与其最近的中心的类中。

（3）初始类的选择

选择不同的初始中心，会到的不同的聚类结果。
初始中心的选择，比如可以用层次聚类对样本进行聚类，得到k个类时停止。然后从美国类中选取一个与中心距离最近的点。

（4）类别数k的选择

image.png

相关文章

统计学习方法——修炼学习笔记14：聚类方法
一、聚类的基本概念 1、相似度或距离聚类的核心概念是相似度或距离。有多种相似度或距离的定义。因为相似度直接影响聚...
《统计学习方法》第 14 章聚类方法 KMeans
k-均值聚类 n 个样本分到 k 个不同的类或簇，每个样本到其所属类的中心的距离最小。每个样本只能属于一个类，所...
统计学习方法笔记(第四章个人笔记)
统计学习方法笔记(第四章个人笔记) 标签：统计学习方法朴素贝叶斯法描述：朴素贝叶斯法是基于贝叶斯定理与特征条...
关于学习：第三章（上）
第三章：学习方法我将学习方法分为通用方法，知识类学习方法，技能类学习方法和自学类学习方法。通用学习方法可以作为其...
从程序员的角度说统计学习方法概论
应该说这是在看完《统计学习方法》这本书后有的想法，也算是读书笔记。《统计学习方法》是李航写的，重点偏向于基于统计的...
2018-08-12
统计学习方法笔记(一) 1.1实现统计学习方法的步骤 1.得到一个有限的训练数据集。 2.确定包含所有可能的模型的...
统计机器学习基本概念
-------- 李航《统计学习方法》笔记 1. 统计学习三要素模型策略算法 1.1 模型监督学习过程中，...
统计学习方法——修炼学习笔记8：提升方法
一、提升方法AdaBootst算法 1、提升方法的基本思路 1984年，Kearns和Valiant提出：强可学习...
9.machine_learning_clusting_and_
机器学习聚类与降维机器学习中的聚类算法聚类是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的...
Python机器学习应用
Scikit-learn: 机器学习方法工具集-提供一批统一化的机器学习方法功能接口-提供聚类，分类，回归，强化学...

网友评论

本文标题：统计学习方法——修炼学习笔记14：聚类方法

本文链接：https://www.haomeiwen.com/subject/knznmhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|统计学习方法——修炼学习笔记14：聚类方法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！