非监督学习之——降维（t-SNE）

作者: 夏普123 | 来源:发表于2021-05-25 08:45 被阅读0次

非监督学习之——降维（t-SNE）
使用Rtsne包进行t-SNE降维分析
非监督学习之——降维（PCA）
非监督学习之——降维（UMAP）
94-非监督学习之t-SNE非线性降维
机器学习-吴恩达笔记8(1)之K-means
增强学习
编程概念（四）：算法相关
ML-主成分分析PCA与梯度上升法
关于t-SNE降维方法

PCA是线性降维，它不能解释特征之间的复杂多项式关系。因此还有一些非线形降维算法，例如：T-SNE、UMAP、SOM、LLE等等。

t-SNE本质上来说就是要找到一个投影方法，使得降维后，数据之间的分团信息得以保存。

首先，它将通过选择一个随机数据点并计算与其他数据点（|x—x|）的欧几里得距离来创建概率分布。从所选数据点附近的数据点将获得更多的相似度值，而距离与所选数据点较远的数据点将获得较少的相似度值。使用相似度值，它将为每个数据点创建相似度矩阵（S1）

其次，它将根据正态分布将计算出的相似距离转换为联合概率。

通过以上的计算，t-SNE将所有数据点随机排列在所需的较低维度上。

然后，t-SNE将再次对高维数据点和随机排列的低维数据点进行所有相同的计算。但是在这一步中，它根据t分布分配概率。这就是名称t-SNE的原因。t-SNE中使用t分布的目的是减少拥挤问题

最后，对于较低维的数据点，还将创建一个相似度矩阵（S2）。然后该算法将S1与S2进行比较，并通过处理一些复杂的数学运算来使S1与S2之间有所不同。包括使用两个分布之间的Kullback Leibler散度（KL散度）作为损失函数运行梯度下降算法。使用KL散度通过将两个分布之间相对于数据点位置的值最小化，帮助t-SNE保留数据的局部结构。

算法步骤：
第一步：计算数据集中每行与其他行的距离（默认为欧氏距离），转为概率。

t-SNE对某一行计算转化得到概率向量

第二步：对每一行重复操作，得到概率矩阵。

t-SNE对每一行得到的概率矩阵热力图

第三步：沿两条新轴用学生氏分布（t分布）对数据随机化。

t-SNE的t分布随机化

第四步：逐渐迭代，通过最小化KL divergence，使得二维空间的新概率矩阵尽可能接近原高维空间的。

t-SNE 类引力与斥力效应的迭代

基于R的t-SNE实现

例：对USArrests数据，使用t-SNE降维

#加载包
library(Rtsne)

#由于四个变量的量纲不统一，不方便进行运算，先进行标准化处理
USArrests_scale <- as_tibble(scale(USArrests, scale=TRUE))

#将标准化后的数据使用t-SNE算法进行降维
noteTsne <- Rtsne(USArrests_scale, perplexity = 7, theta = 0, max_iter = 1000, eta = 300, verbose = T)

参数说明：

dims：参数设置降维之后的维度，默认值为2；
perplexity（困惑度）：控制距离转化为概率的分布。越小越关注局部结构，越大越关注全局结构。简单来说，就是最后分簇后，每个簇包含的数据数量。越小分的簇越多，越大分的簇越少。参数的取值必须小于(nrow(data) - 1 )/ 3;
theta：参数取值越大，结果的准确度越低，但计算速度会提高，反之，越小越精确，计算速度越慢。默认值为0.5；
max_iter：参数设置最大迭代次数，默认1000

t-SNE 调整perlexity 和 theta 的效果

t-SNE 调整 eta 和 max_iter 的效果

可视化数据，观察降维后的效果：

#先将四个变量放到同一列，这样便于画图和比较
USArrestsTSNE <- USArrests_scale %>% 
  mutate(tSNE1 = noteTsne$Y[,1], tSNE2 = noteTsne$Y[,2]) %>% 
  pivot_longer(1:4, names_to ="Variable", values_to = "Value")

#画图
ggplot(USArrestsTSNE, aes(tSNE1, tSNE2,col=Value)) +
  facet_wrap(~ Variable) +
  geom_point(size = 1) +
  scale_color_gradient(low = "dark blue", high = "cyan") +
  theme_bw()