ES8.0新增KNN向量近邻检索

作者: 郭彦超 | 来源:发表于2022-02-22 18:03 被阅读0次

ES8.0新增KNN向量近邻检索
高数没用？看看机器学习的公式，验证下微积分都还给老师没
【挖掘模型】：Python-KNN算法
机器学习笔记汇总
100天机器学习实践之第7天
【机器学习实战】第2章 k-近邻算法（KNN）
KNN算法：K最近邻分类算法(K-NearestNeighbor
十大经典算法（五）
KNN学习笔记
faiss的安装使用

向量检索将加速深度学习的落地与应用，向量检索的应用场景如下图所示，它几乎覆盖了大部分的可以应用AI的业务场景

这里的KNN其实是ANN，与传统的KNN算法相比ANN在性能和召回准确性方面做了平衡，传统的KNN检索性能损耗是暴力线性增长的，仅能处理百万内的数据量。

首先，在创建索引时需要选择dense_vector类型并指定index为true,并定义索引时文档间相似度量算法，此时es在索引文档时会为knn搜索生成新的索引文件，新的索引文件采用的是树加链表的存储结构，并根据similarity指定的相似算法计算文档间距离，特征相近的数据会存储在临近的分支里

PUT my-approx-knn-index
{
  "mappings": {
    "properties": {
      "my-image-vector": {
        "type": "dense_vector",
        "dims": 5,
        "index": true,
        "similarity": "l2_norm"
      },
      "my-tag": {
        "type": "keyword"
      }
    }
  }
}

文档索引后就可以通过knn_search语法进行topK近邻检索了。这里需要注意的时返回的K个数据为近似最优解，并不是真实的最近邻数据。

GET my-approx-knn-index/_knn_search
{
  "knn": {
    "field": "my-image-vector",
    "query_vector": [-0.5, 90.0, -10, 14.8, -156.0],
    "k": 10,
    "num_candidates": 100
  },
  "fields": [
    "my-image-vector",
    "my-tag"
  ]
}

其中num_candidates是检索分片时获得的候选集数量。

下个版本_knn将支持filter

目前knn查询还处于试验阶段不能和DSL语法混合使用，官方正在努力解决，预估在8.2之后版本会逐步增加布尔查询及filter操作，不过采用的是多路归并的方式，即分别检索标签和向量再进行结果合并，虽可以解决部分问题，但多数情况下结果不甚理想。主要原因在于，向量检索无范围性，其目标是尽可能保证 TOPK 的准确性，TOPK 很大时，准确性容易下降，造成归并结果的不准确甚至为空的情况。

当结果低于K个时会触发精准最近邻检索，也就是前面说的KNN

GET my-approx-knn-index/_search
{
  "size": k,
  "query": {
    "script_score": {
      "query" : {
        "bool" : {
          "filter" : {
            "term" : {
              "my-tag" : "易企秀"
            }
          }
        }
      },
      "script": {
        "source": "cosineSimilarity(params.queryVector, 'my-image-vector') + 1.0",
        "params": {
          "queryVector": [-0.5, 90.0, -10, 14.8, -156.0]
        }
      }
    }
  }
}

写在最后
随着 AI 技术的广泛应用以及数据规模的不断增长，向量检索作为深度学习中的主流方法，其具备的泛检索和多模态搜索的能力也将进一步得到发挥。

网友评论

本文标题：ES8.0新增KNN向量近邻检索

本文链接：https://www.haomeiwen.com/subject/abwglrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ES8.0新增KNN向量近邻检索

相关文章