美文网首页
Elasticsearch中间隔查询slop原理

Elasticsearch中间隔查询slop原理

作者: 张卖命 | 来源:发表于2020-03-15 11:31 被阅读0次

    我现在主要做的业务是有关实时查询功能相关的,用的最多的就是elasticsearch,前端时间碰到一个特别有趣的问题,跟大家分享一下。

    前几天有用户反馈间隔查询的问题,真实的数据在这不方便展示,我就用自己的一个假数据案例给大家还原一下真实场景。

    客户A: 我在你们数据库查询标题,“中华 共和国 (间隔2字内)”为什么查不到“中华人民共和国民法通则”这个记录呢?

    我:收到,我这边排查一下问题哈。(特别客气的回复)

    内心os: 这tm怎么可能呢,明明就是两个字的啊,难道是我写了个bug?

    打开我的mac本,开始排查一顿操作,确实是没有,查询结果见下图:

    下图为不做间隔查询的结果:

    (在此说明一下,我中文分词器用的是ik分词器)

    此刻我的内心:

    此时开始google,询问我们项目组的大神。一顿讨论下来,难道es为了效率,用的是它分词后的position。

    查看“中华人民共和国民法通则”的分词结果:

    可以看到“中华”和“共和国”之间按照postion,间隔为4。

    然后修改一下我们的查询语句,操作看一下:

    居然可以了!!!!

    总结一下这个问题:

    es的间隔查询是按照分词后下面的postion之间的间隔,这样保证了它的效率。

    如果我们使用ik分词的话,这个查询会让我们造成误解,对我们实际的意义不大。

    如果我们分词使用的是逐字分词(比如standard),还是不错的。

    小编叨逼叨:

    脱离业务谈技术都是耍流氓。任何技术都不是完美的,结合业务选择合适的技能负责任的好猿。

    相关文章

      网友评论

          本文标题:Elasticsearch中间隔查询slop原理

          本文链接:https://www.haomeiwen.com/subject/kgxcehtx.html