PCA是线性降维,它不能解释特征之间的复杂多项式关系。 因此还有一些非线形降维算法,例如:T-SNE、UMAP、SOM、LLE等等。
t-SNE本质上来说就是要找到一个投影方法,使得降维后,数据之间的分团信息得以保存。
首先,它将通过选择一个随机数据点并计算与其他数据点(|x—x|)的欧几里得距离来创建概率分布。 从所选数据点附近的数据点将获得更多的相似度值,而距离与所选数据点较远的数据点将获得较少的相似度值。 使用相似度值,它将为每个数据点创建相似度矩阵(S1)
其次,它将根据正态分布将计算出的相似距离转换为联合概率。
通过以上的计算,t-SNE将所有数据点随机排列在所需的较低维度上。
然后,t-SNE将再次对高维数据点和随机排列的低维数据点进行所有相同的计算。但是在这一步中,它根据t分布分配概率。这就是名称t-SNE的原因。t-SNE中使用t分布的目的是减少拥挤问题
最后,对于较低维的数据点,还将创建一个相似度矩阵(S2)。然后该算法将S1与S2进行比较,并通过处理一些复杂的数学运算来使S1与S2之间有所不同。包括使用两个分布之间的Kullback Leibler散度(KL散度)作为损失函数运行梯度下降算法。使用KL散度通过将两个分布之间相对于数据点位置的值最小化,帮助t-SNE保留数据的局部结构。
算法步骤:
第一步:计算数据集中每行与其他行的距离(默认为欧氏距离),转为概率。
t-SNE对某一行计算转化得到概率向量
第二步:对每一行重复操作,得到概率矩阵。
t-SNE对每一行得到的概率矩阵热力图
第三步:沿两条新轴用学生氏分布(t分布)对数据随机化。
t-SNE的t分布随机化
第四步:逐渐迭代,通过最小化KL divergence,使得二维空间的新概率矩阵尽可能接近原高维空间的。
t-SNE 类引力与斥力效应的迭代
基于R的t-SNE实现
例:对USArrests数据,使用t-SNE降维
#加载包
library(Rtsne)
#由于四个变量的量纲不统一,不方便进行运算,先进行标准化处理
USArrests_scale <- as_tibble(scale(USArrests, scale=TRUE))
#将标准化后的数据使用t-SNE算法进行降维
noteTsne <- Rtsne(USArrests_scale, perplexity = 7, theta = 0, max_iter = 1000, eta = 300, verbose = T)
参数说明:
- dims:参数设置降维之后的维度,默认值为2;
- perplexity(困惑度):控制距离转化为概率的分布。越小越关注局部结构,越大越关注全局结构。简单来说,就是最后分簇后,每个簇包含的数据数量。越小分的簇越多,越大分的簇越少。参数的取值必须小于(nrow(data) - 1 )/ 3;
- theta:参数取值越大,结果的准确度越低,但计算速度会提高,反之,越小越精确,计算速度越慢。默认值为0.5;
- max_iter:参数设置最大迭代次数,默认1000
可视化数据,观察降维后的效果:
#先将四个变量放到同一列,这样便于画图和比较
USArrestsTSNE <- USArrests_scale %>%
mutate(tSNE1 = noteTsne$Y[,1], tSNE2 = noteTsne$Y[,2]) %>%
pivot_longer(1:4, names_to ="Variable", values_to = "Value")
#画图
ggplot(USArrestsTSNE, aes(tSNE1, tSNE2,col=Value)) +
facet_wrap(~ Variable) +
geom_point(size = 1) +
scale_color_gradient(low = "dark blue", high = "cyan") +
theme_bw()
t-SNE的特点:
优点:
- 相较于正态分布,使用t分布能更好地分散可能的数据簇,更易识别;
- 分类效果往往胜过PCA。
缺点:
- t-SNE在低维容易保持局部结构,不易保留全局结构。
- 计算费时,计算时间随簇数显著增加。
- 无法像PCA一样投影新数据。
- 簇间距离意义不大。
【参考文献】:
网友评论