无监督学习的目标:
利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。
有监督学习和无监督学习的最大区别在于数据是否有标签
无监督学习最常应用的场景是聚类和降维
聚类就是根据数据的“相似性”将数据分为多类的过程
什么样的数据时相似的数据?
如何定义相似性?
评估两个不同样本之间的"相似性",通常使用的方法就是计算两个样本之间的"距离"。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。
距离计算方法
欧氏距离: 最常用的一种距离度量方法,源于欧式空间中两点的距离。
曼哈顿距离: 也称城市街区距离,类似于在城市之中驾车行驶,从一个十字路口到另外一个十字路口的距离。
马氏距离:表示数据的协方差距离,是一种尺度无关的度量方式。也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离。
夹角余弦:
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近1,说明两个向量夹角越接近0度,表明两个向量越相似。
聚类算法比较

降维
保证数据所具有的代表性或者分布的情况下,将高维数据转化为低位数据的过程。
- 数据可视化
- 精简数据
- 重要研究内容,sklearn库提供7种降维算法
- 降维过程也可以被理解为对数据集的组成成分进行分解的过程,因此sklean为降维模块命名为decomposition,在对降维算法调用需要使用sklearn.decomposition模块。

网友评论