一、无监督学习基本原理

无监督学习

是从无标注的数据中学习数据的统计规律或者说内在的结构的机器学习，主要包括聚类，降维，概率估计。无监督学习可以用与数据分析或监督学习的前处理。

image.png

无监督学习的基本想法：

是给定数据（矩阵数据）进行某种“压缩”，从而找到数据的潜在结构。假定损失最小的压缩得到的结果就是最本质的结构。

image.png

二、基本问题

1、聚类

聚类是将样本中相似的样本（实例）分配到相同一类，不相似的样本分配到不同类。

聚类时，样本通常是欧式空间中向量，类别不是事先给定，而是从数据中自动发现，但类别的个数通常是事先给定的。样本之间的相似度或距离由应用决定。

它又有软聚类和硬聚类

如果一个样本只能属于一个类，则称硬聚类
如果一个样可以属于多个类，则称软聚类

image.png

2、降维

降维是将训练数据中的样本（实例）从高维空间转换到低维空间。

假设样本原本存在于低维空间，或者近似地存在于低维空间，通过降维则可以更好地表示样本数据的结构，即更好地表示样本之间的关系。
高维空间通常是高维的欧式空间，低维空间是低维的欧氏空间或者流形。
从高维到低维的降维中，要保证样本的信息损失最小。
降维有线性的降维和非线性的降维

二维空间的样本存在于一条直线的附近，可以将样本从二维空间转换到一维空间。通过降维可以更好地表示样本之间的关系。

image.png

3、概率模型估计

假设训练数据由一个概率模型生成，由训练数据学习概率模型的结构和参数。
概率模型的结构类型，或者说概率模型的集合事先给定，而模型的具体结构与参数从数据中自动学习。学习的目标是找到最有可能生成数据的结构和参数。

概率模型包括混合模型、概率图模型等。
概率图模型又包括有向图模型和无向图模型。

image.png

假设数据有高斯混合模型生成，学习的目标是估计这个模型的参数。

image.png

三、机器学习三要素

image.png

四、无监督学习方法

1、聚类

主要用于数据分析，也可用于监督学习的前处理。
可以帮助发现数据中的统计规律。

image.png

2、降维

主要用于数据分析，也可用于监督学习的前处理。
帮助发现高维数据中的统计规律。

image.png

3、话题分析

话题分析是文本分析的一种技术。
给定一个文本集合，话题分析旨在发现文本集合中每个文本的话题，而话题由单词的集合表示。
注意：这里假设有足够数量的文本，如果只有一个文本或几个文本，是不能做话题分析的。
话题分析可以形式化为概率模型估计问题，或降维问题。

image.png

4、图分析

图分析的目的是发掘隐藏在图中的统计规律或潜在结构。
链接分析是图分析的一种，包括PageRank算法，主要是发现有向图中的重要结点。

PageRank算法是无监督学习方法。给定一个有向图，定义在图上的随机游走即马尔可夫链。
随机游走者在有向图随机跳转，达到一个结点后以等概率跳转到链接出去的结点，并不断持续这个过程。
PageRank算法就是求解该马尔可夫链的平稳分布的算法。
一个结点上的平稳概率表示该结点的重要性，称为该结点的PageRank值。
被指向的结点越多，该结点的PageRank值越大。
被指向的结点的PageRank值越大，该结点的PageRank值越大。PageRank值越大结点也就越重要。