通常,我们一般通过绘制点图来可视化来观测数据的特征间数据的相关性与简单簇与离群点,该方法对二维的数据或三维的数据点适用;但是对于包含大于3个特征的数据集,想要把所有的特征轴都绘制出来是不现实的。

所以对于分析多特征的数据集,我们常用的方法就是降维:
-
一个是PCA,但是该方法仅对 主要能够被前两个主成分完全解释差异 的数据集有效;对于高维复杂的数据集,样本差异无法被前三个PC解释的话,PCA方法不是最好的选择。
-
另一个是UMAP,该方法接受高于两个特征的数据集,输出低维图像用于探索数据集。相似的样本会趋于聚类在一起体现在输出的umap结果点图中。UMAP算法的目的是在低维图像上 展示高维空间中样本的簇以及样本点之间的联系。
UMAP算法通过计算样本点之间的相似性分数来实现低维可视化样本点间邻近关系。
第一步 计算高纬空间中样本点的距离(distance);

第二步 计算每个样本点与其它样本点之间相似性分数添加缩放曲线。
每个样本与其它样本点的相似性评分只计算与当前样本点x个最近邻居的相似性评分,其它邻居的相似性评分统一划为0,其中离每个样本点最近的邻居的相似性评分总为1。
在这一步,无论在距离上相距多远或多近的样本点,每个样本点与其它样本点之间的相似性评分之和总等于log2(期望邻居点个数x),并且能够保证每个点都与数据集中至少一个样本点相似,目的只是为了确定哪些样本之间是近邻关系。

所有样本点之间的相对相似性分数通过以下公式实现对称化:

第三步 基于谱图论初始化出低维图像,然后矫正样本点之间的距离,使得高纬相似的样本在低维图像上更加邻近。
待学习更新...

https://www.youtube.com/watch?v=eN0wFzBA4Sc
https://www.youtube.com/watch?v=jth4kEvJ3P8
网友评论