- 测试背景:
业务需求要使用向量检索库,milvus是新开源的检索库,由C++编写,支持docker,k8s分布式拓展,0.6.0版本新增表分区等新功能。官方的介绍很接地气,生态类似elasticsearch。es7.4也增加了向量的欧式L2距离等检索功能,阿里也开源了部分es向量检索插件,但是milvus可以GPU+CPU也是优势,这次就来测试一下单机性能。 - 测试材料:
- 1000w向量入库milvus(先前已经往milvus中写了将近1000w的向量)
- 100w检索向量(现在取本地在sqlite中的100w条向量用于检索压测)
- milvus-cpu-0.6.0
4.Ubuntu18.04+docker+i5 4560CPU+16G内存(实际配置了milvus上限4G)
cache_config:
cpu_cache_capacity: 4 # GB, CPU memory used for cache, must be a positive integer
cache_insert_data: false # whether to load inserted data into cache, must be a boolean
- 测试代码:
import sqlite3,time
import base64
import numpy as np
from milvus import Milvus, IndexType, MetricType, Status
milvus = Milvus()
milvus.connect(host='192.168.2.116', port='19530')
con = sqlite3.connect('soutu.db')
cursor = con.cursor()
test_feat = cursor.execute("""select feature from imgsearch where feature is not null limit 1000000
""")
con.commit()
s = time.time()
cnt = 0
time_cost = []
for item in test_feat:
cnt += 1
feature_str = item[0]
feature_float = np.frombuffer(base64.b64decode(feature_str),np.float32).tolist()
status,res = milvus.search_vectors(table_name='hznz', query_records=[feature_float], top_k=10, nprobe=512)
if cnt%1000==1:
s_child = time.time()
if cnt%1000==0:
cost = (time.time()-s_child)
time_cost.append(cost)
print(cnt,cost,'s')
e = time.time()
print("100W total cost {}s time.".format(e-s))
con.close()
- 测试过程:
-
平均检索1000条64维的向量耗时24~25s。
过程 -
机器负载:
milvus自动开启了26个进程。CPU4个核心跑了50%左右还是比较均衡。内存占了3.2G左右(去掉系统毛重),是默认的4G*80%=3.2G的配置。
负载
网友评论