arxiv'23-Scaling Graph-Based ANN

arxiv'23-Scaling Graph-Based ANN

作者: Caucher | 来源:发表于2023-05-24 10:28 被阅读0次

论文笔记_聚类:The Constrained Laplacia
Graph-Based Object Classificatio
在家无聊？16篇最新推荐系统论文送你
使用ANN扩展Graph-based算法的图像分割粒度
Efficient Graph-Based Image Segm
实体消岐(2.1) - 论文笔记
GhostNet(More Features from Chea
整理了下现有的预印本服务
2018-03-31
如何快速下载arXiv文献

编者的总结

本文在billion级别数据集上做的对比实验，结果不出意外，HNSW, Vamnna性能最稳定。值得注意的是，HCNNG在out-of-distribution数据集上适应更好，IVFPQ在range query上比其它方法性能高出一大截。
一个现象是即使IVFPQ性能更高，距离计算次数却仍然会更多，作者没有解释原因。
本文提了一个并行无锁化的插入式图构建框架，但会额外引入一些时间负担，但文中没有进一步解释。

编者的思考

文章整体给出的insights不多，有些现象也只给了实验结论，没有进一步分析。
文章用的机器非常强，少则96核，多则192核，对于查询，并行化没有任何竞争冲突；但对于构建这种有竞争冲突的，本文的实验可以提供一些参考。

Abstract

本文是在billion级别数据集做测评的文章，重点关注以下几个点：

并行化能力
构建时间
伸缩性
在查询性能方面，重点关注NDC，即每个Query平均距离计算次数
range query和out-of-distribution data

除此之外，本文还有两个贡献：

四种图算法优化了在billion级别数据集下的性能。
提供了一个泛化框架，让图索引的增量算法免于用锁

3 ANNS Algorithms

3.1 Graph-Based Algorithms

本文描述的统一插入算法的框架，把新插入点的NN search的访问集作为邻居集，这个在NSG和vamanna里面是这样的，在HNSW并不是。

image.png
本文提出的并行无锁式插入算法如下。注意只有批量插入算法，实际上是一个并行构建算法。
要解决的问题就是加反向边的时候需要锁。
为了解决该问题，我们在为新插入点集找到邻居之后，统一收集这些邻居和这些邻居对应的新插入点，然后并行为这些邻居做更新。

image.png

除此之外，本文对search方面又做了两个优化：

一个是visit set的那个哈希表，为了加速查询，本文用了一个近似哈希表，这个哈希表永远不会碰撞，因为只要插入碰撞点，就把之前的点踢出去，这样可能会造成重新访问，不过实战问题不大。
另一个是搜的时候不会搜距离过远的邻居，具体来说就是超过 $(1+\epsilon)$ 倍当前BSF的距离，这样的Candidate直接跳过。

3.3 Algorithms Excluded

图算法分成了扁平图（Vamanna）和层次化图（HNSW）

4 Experimental Setup

实验有两台机器：

Msv2: four Intel® Xeon® Platinum 8280 Processors with 192 vCPUs 2TB 内存
ev5: two 3rd Generation Intel® Xeon® Platinum 8370C Processors with 96 vCPUs available to the user, and 672 GiB内存

所有核同时跑起来
算法参数如下：

image.png

5.1 Parallelism and Size Scaling

首先检验索引构建的并行度，这是本文提的新算法，批量并行构建；
随着线程数增加，如果总工作量保持不变，说明同步开销很小；
实线基本不变，说明同步开销很小；
48,96的位置有上升是因为总共就48核，96线程；
【不知道为什么HNSW在改良之后构建慢了这么多】

image.png

接下来我们看Scalability
构建时间是超线性的，可以归结于beam search的原因，即插入也是超线性的，即使是批量插入。
查询QPS降低不是线性的，不过这里是80% Recall10@10
【距离计算次数竟然没有同比增加，不知道这是怎么回事】

image.png

5.2 Full Billion-Scale Results

range search Faiss的ivf-pq表现非常突出。
HCNNG在out-of-distribution的数据集，Text2Image上表现不错；相比之下vamanna的性能在这个数据集上就差了一些。而且注意在这个数据集上所有方法的QPS都在下降，且幅度不小。

image.png
image.png

image.png

6 Conclusion and Future Work

作者基于实验结果提出了几个open problem:

HCNNG在out-of-distribution数据集上表现最优，Vamnna/HNSW在其他大数据集上表现最优，能否结合之？
图方法在Range search上比FAISS-IVFPQ差很多，如何提升？

相关文章

论文笔记_聚类:The Constrained Laplacia
The Constrained Laplacian Rank algorithm for graph-based ...
Graph-Based Object Classificatio
Title Graph-Based Object Classification for Neuromorphic ...
在家无聊？16篇最新推荐系统论文送你
[1] A Survey on Knowledge Graph-Based Recommender Systems...
使用ANN扩展Graph-based算法的图像分割粒度
1. 简介近年来随着RCNN及其衍生算法在物体识别领域受到越来越广泛的认可和青睐，RCNN所依赖的图像分割算法—...
Efficient Graph-Based Image Segm
Paper：Efficient Graph-Based Image Segmentation, MIT, 2004...
实体消岐(2.1) - 论文笔记
Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambigu...
GhostNet(More Features from Chea
arxiv：https://arxiv.org/pdf/1911.11907arxiv.orggithub：htt...
整理了下现有的预印本服务
Arxiv 康奈尔服务器：http://arxiv.org/ CN镜像：http://cn.arxiv.org/ ...
2018-03-31
Ann Dunwoody Ann Elizabeth Dunwoody(born January 14, 1953...
如何快速下载arXiv文献
简单的说，就是arxiv 在中国有官方镜像 http://cn.arxiv.org。背景 arXiv （http...

网友评论

本文标题：arxiv'23-Scaling Graph-Based ANN

本文链接：https://www.haomeiwen.com/subject/ccpxedtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|arxiv'23-Scaling Graph-Based ANN|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！