WWW'16(高维数据可视化)-Visualizing Larg

WWW'16(高维数据可视化)-Visualizing Larg

作者: Caucher | 来源:发表于2023-08-17 11:57 被阅读0次

5.Python数据可视化-美国大学各专业的性别差距
高维数据可视化Visualizing data using t-
python与机器学习降维：PCA实现高维数据可视化和NMF人脸
《DataFocus 数据可视化》第七章高维多元数据
Cesium的Property机制总结
数据结构可视化
01 生物数据可视化
高维数据可视化方法——T-SNE
UMAP的初步了解及与t-SNE的比较
基于Python的数据可视化：从一维到多维

标题：大规模高维数据可视化
作者来自MSRA
代码开源好用:https://github.com/lferry007/LargeVis

编者的总结

类似t-SNE，本文以KNN图捕捉原始数据分布，但目标函数没有采用KL散度，但含义是类似地，只是更好地帮助训练，达成更快的速度和更稳定的参数。
对于相似度的度量主要是L2距离，无论在高维或者低维，不清楚在其他度量空间上是否有效。
相比于t-SNE，降维速度和参数稳定性有很大提升，但是仍然比较慢，测试1M，8线程要2-3个小时左右。

ABSTRACT

本文是t-SNE的进阶版本，有两个主要贡献，一个是原始数据的KNN图构建加速，另一个是KNN图投影到低维空间时的优化目标和训练方法更好更快了。
而且超参数更少更稳定，也是一个主要优点。

1. INTRODUCTION

降维/可视化的目的是在低维空间保持数据点之间的近邻性，原来近的降维之后也近，原来远的降维之后也远。
主要方法有线性（PCA，multi-dimension scaling），和非线性的（local linear embedding, laplacian eigenmaps），按照t-SNE作者的说法，高维数据通常躺在低维空间的非线性流形上，所以线性方法有效性有限。
非线性方法也没有在保持局部和全局结构。
目前最有效的就是t-SNE，基本策略是用一个KNN图来代表原始数据的分布特征，然后将KNN图投影到二维或低维空间。

image.png

3. LARGEVIS

3.1 Efficient KNN Graph Construction

这一部分没什么好说的，KNN-graph用最新的技术去做就可以了。
本文采用的是用树来初始化knn-graph，用nn-descent来refine的过程，和effana比较像。树的分裂是随机选两个点，取中间平面进行分割。

3.2 A Probabilistic Model for Graph Visualization

首先KNN图边的权重和t-SNE的设计一样：

image.png

含义是当前i,j边的长度和i所有的出边的长度和的比值，相当于一种归一化。
然后准备投影到低维空间，基本思路是首先随机初始化每个点的坐标，然后根据一个目标函数，每次sample一条边对它的起点进行refine，refine是一个梯度下降的训练过程。
目标函数：对于在KNN图中的边，在二维空间上越近越好；反之亦然。KNN图上的边的权重在目标函数上也是一个权重项。
$p(e_{ij}=1)$ 表示的是在二维空间上的两点之间相似度，可以用欧氏距离的一些变种来替代。
image.png
实际情况1：因为负边实在太多，不可能全用，所以可以采用一些负采样技术，按照一个噪声分布和一个正负边的比例去采样一些边来训练。
实际情况2：权重 $w_{ij}$ 有时不好控制范围，可以通过权重大的边多采样几次，权重小的边少采样的方式，将权重抹除。
优化器：异步随机梯度下降，简单点来说，如果图很稀疏，边很少（比如KNN图K/N的稀疏度），所以并行训练随机采样边几乎不会发生冲突，所以就可以不加锁，同步训练。

相关文章

5.Python数据可视化-美国大学各专业的性别差距
Visualizing The Gender Gap in College degrees：读取数据：可视化：...
高维数据可视化Visualizing data using t-
t-SNE高维数据可视化（python）这篇文章非常好，贴出来的代码，直接可正确运行。 t-SNE算法理解：An ...
python与机器学习降维：PCA实现高维数据可视化和NMF人脸
PCA实现高维数据可视化 NMF人脸数据特征提取
《DataFocus 数据可视化》第七章高维多元数据
第七章高维多元数据 7.1 高维数据可视化高维多元数据，这其中蕴含了两个概念，一个是高维，一个是多元。那什么是...
Cesium的Property机制总结
前言 Cesium官方教程中有一篇叫《空间数据可视化》(Visualizing Spatial Data)。该文文...
数据结构可视化
前言：人是一种视觉动物，我们可以通过视觉来思考数据结构 Visualizing Algorithms（算法可视化）...
01 生物数据可视化
原文：Visualizing biological data 数据可视化越来越重要，但它需要明确的目标和更好的实现...
高维数据可视化方法——T-SNE
用途用于高维数据的降维，可视化展示，相比较pca的线性降维，再可视化显示方面显示更加友好。相似的样本由附近的点建...
UMAP的初步了解及与t-SNE的比较
降维是机器学习中的可视化和理解高维数据的强大工具。t-SNE是最广泛使用的可视化技术之一，但其性能在大型数据集中会...
基于Python的数据可视化：从一维到多维
目录一、iris数据集介绍二、一维数据可视化三、二维数据可视化四、多维数据可视化五、参考资料一、iris数据集...

网友评论

本文标题：WWW'16(高维数据可视化)-Visualizing Larg

本文链接：https://www.haomeiwen.com/subject/bswcmdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|WWW'16(高维数据可视化)-Visualizing Larg|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！