美文网首页生物信息学习史
非监督学习之——降维(t-SNE)

非监督学习之——降维(t-SNE)

作者: 夏普123 | 来源:发表于2021-05-25 08:45 被阅读0次

    PCA是线性降维,它不能解释特征之间的复杂多项式关系。 因此还有一些非线形降维算法,例如:T-SNE、UMAP、SOM、LLE等等。

    t-SNE本质上来说就是要找到一个投影方法,使得降维后,数据之间的分团信息得以保存。

    首先,它将通过选择一个随机数据点并计算与其他数据点(|x—x|)的欧几里得距离来创建概率分布。 从所选数据点附近的数据点将获得更多的相似度值,而距离与所选数据点较远的数据点将获得较少的相似度值。 使用相似度值,它将为每个数据点创建相似度矩阵(S1)

    其次,它将根据正态分布将计算出的相似距离转换为联合概率。

    通过以上的计算,t-SNE将所有数据点随机排列在所需的较低维度上。

    然后,t-SNE将再次对高维数据点和随机排列的低维数据点进行所有相同的计算。但是在这一步中,它根据t分布分配概率。这就是名称t-SNE的原因。t-SNE中使用t分布的目的是减少拥挤问题

    最后,对于较低维的数据点,还将创建一个相似度矩阵(S2)。然后该算法将S1与S2进行比较,并通过处理一些复杂的数学运算来使S1与S2之间有所不同。包括使用两个分布之间的Kullback Leibler散度(KL散度)作为损失函数运行梯度下降算法。使用KL散度通过将两个分布之间相对于数据点位置的值最小化,帮助t-SNE保留数据的局部结构。

    算法步骤:
    第一步:计算数据集中每行与其他行的距离(默认为欧氏距离),转为概率。


    t-SNE对某一行计算转化得到概率向量

    第二步:对每一行重复操作,得到概率矩阵。


    t-SNE对每一行得到的概率矩阵热力图

    第三步:沿两条新轴用学生氏分布(t分布)对数据随机化。


    t-SNE的t分布随机化

    第四步:逐渐迭代,通过最小化KL divergence,使得二维空间的新概率矩阵尽可能接近原高维空间的。


    t-SNE 类引力与斥力效应的迭代

    基于R的t-SNE实现

    例:对USArrests数据,使用t-SNE降维

    #加载包
    library(Rtsne)
    
    #由于四个变量的量纲不统一,不方便进行运算,先进行标准化处理
    USArrests_scale <- as_tibble(scale(USArrests, scale=TRUE))
    
    #将标准化后的数据使用t-SNE算法进行降维
    noteTsne <- Rtsne(USArrests_scale, perplexity = 7, theta = 0, max_iter = 1000, eta = 300, verbose = T)
    

    参数说明:

    1. dims:参数设置降维之后的维度,默认值为2;
    2. perplexity(困惑度):控制距离转化为概率的分布。越小越关注局部结构,越大越关注全局结构。简单来说,就是最后分簇后,每个簇包含的数据数量。越小分的簇越多,越大分的簇越少。参数的取值必须小于(nrow(data) - 1 )/ 3;
    3. theta:参数取值越大,结果的准确度越低,但计算速度会提高,反之,越小越精确,计算速度越慢。默认值为0.5;
    4. max_iter:参数设置最大迭代次数,默认1000
    t-SNE 调整perlexity 和 theta 的效果 t-SNE 调整 eta 和 max_iter 的效果

    可视化数据,观察降维后的效果:

    #先将四个变量放到同一列,这样便于画图和比较
    USArrestsTSNE <- USArrests_scale %>% 
      mutate(tSNE1 = noteTsne$Y[,1], tSNE2 = noteTsne$Y[,2]) %>% 
      pivot_longer(1:4, names_to ="Variable", values_to = "Value")
    
    #画图
    ggplot(USArrestsTSNE, aes(tSNE1, tSNE2,col=Value)) +
      facet_wrap(~ Variable) +
      geom_point(size = 1) +
      scale_color_gradient(low = "dark blue", high = "cyan") +
      theme_bw()
    
    

    t-SNE的特点:

    优点:

    • 相较于正态分布,使用t分布能更好地分散可能的数据簇,更易识别;
    • 分类效果往往胜过PCA。

    缺点:

    • t-SNE在低维容易保持局部结构,不易保留全局结构。
    • 计算费时,计算时间随簇数显著增加。
    • 无法像PCA一样投影新数据。
    • 簇间距离意义不大。

    【参考文献】:

    1. t-SNE的通俗易懂解释
    2. t-SNE分析的原理
    3. t-SNE:可视化效果最好的降维算法
    4. t-sne数据可视化算法的作用是啥?为了降维还是认识数据?
    5. 数据可视化降维:PCA vs TSNE vs UMAP
    6. 从SNE到t-SNE再到LargeVis
    7. 有关t-SNE的小技巧
    8. How to Use t-SNE Effectively

    相关文章

      网友评论

        本文标题:非监督学习之——降维(t-SNE)

        本文链接:https://www.haomeiwen.com/subject/nelsdltx.html