美文网首页
Elasticsearch中间隔查询slop原理

Elasticsearch中间隔查询slop原理

作者: 张卖命 | 来源:发表于2020-03-15 11:31 被阅读0次

我现在主要做的业务是有关实时查询功能相关的,用的最多的就是elasticsearch,前端时间碰到一个特别有趣的问题,跟大家分享一下。

前几天有用户反馈间隔查询的问题,真实的数据在这不方便展示,我就用自己的一个假数据案例给大家还原一下真实场景。

客户A: 我在你们数据库查询标题,“中华 共和国 (间隔2字内)”为什么查不到“中华人民共和国民法通则”这个记录呢?

我:收到,我这边排查一下问题哈。(特别客气的回复)

内心os: 这tm怎么可能呢,明明就是两个字的啊,难道是我写了个bug?

打开我的mac本,开始排查一顿操作,确实是没有,查询结果见下图:

下图为不做间隔查询的结果:

(在此说明一下,我中文分词器用的是ik分词器)

此刻我的内心:

此时开始google,询问我们项目组的大神。一顿讨论下来,难道es为了效率,用的是它分词后的position。

查看“中华人民共和国民法通则”的分词结果:

可以看到“中华”和“共和国”之间按照postion,间隔为4。

然后修改一下我们的查询语句,操作看一下:

居然可以了!!!!

总结一下这个问题:

es的间隔查询是按照分词后下面的postion之间的间隔,这样保证了它的效率。

如果我们使用ik分词的话,这个查询会让我们造成误解,对我们实际的意义不大。

如果我们分词使用的是逐字分词(比如standard),还是不错的。

小编叨逼叨:

脱离业务谈技术都是耍流氓。任何技术都不是完美的,结合业务选择合适的技能负责任的好猿。

相关文章

网友评论

      本文标题:Elasticsearch中间隔查询slop原理

      本文链接:https://www.haomeiwen.com/subject/kgxcehtx.html