用途
用于高维数据的降维,可视化展示,相比较pca的线性降维,再可视化显示方面显示更加友好。相似的样本由附近的点建模,不相似的样本由高概率的远点建模。
创新点
引入概率,相近的点更有概率出现一块:t-SNE最小化了两个分布之间关于嵌入点位置的Kullback-Leibler(KL)散度。
让认识数据更清洗
如下对比pca降维和tsne的降维结果
pca降维效果
tsne降维效果
具体算法实现细节
两个步骤
1:构建高维空间中点的概率分布P
- 怎么构建?
使得距离相近的点具有高的概率
2:在低维度空间重构这种概率分布
假设概率分布服从高斯分布:https://zhuanlan.zhihu.com/p/148170862
https://zhuanlan.zhihu.com/p/57937096
网友评论