我现在主要做的业务是有关实时查询功能相关的,用的最多的就是elasticsearch,前端时间碰到一个特别有趣的问题,跟大家分享一下。
前几天有用户反馈间隔查询的问题,真实的数据在这不方便展示,我就用自己的一个假数据案例给大家还原一下真实场景。
客户A: 我在你们数据库查询标题,“中华 共和国 (间隔2字内)”为什么查不到“中华人民共和国民法通则”这个记录呢?
我:收到,我这边排查一下问题哈。(特别客气的回复)
内心os: 这tm怎么可能呢,明明就是两个字的啊,难道是我写了个bug?
打开我的mac本,开始排查一顿操作,确实是没有,查询结果见下图:
下图为不做间隔查询的结果:
(在此说明一下,我中文分词器用的是ik分词器)
此刻我的内心:
此时开始google,询问我们项目组的大神。一顿讨论下来,难道es为了效率,用的是它分词后的position。
查看“中华人民共和国民法通则”的分词结果:
可以看到“中华”和“共和国”之间按照postion,间隔为4。
然后修改一下我们的查询语句,操作看一下:
居然可以了!!!!
总结一下这个问题:
es的间隔查询是按照分词后下面的postion之间的间隔,这样保证了它的效率。
如果我们使用ik分词的话,这个查询会让我们造成误解,对我们实际的意义不大。
如果我们分词使用的是逐字分词(比如standard),还是不错的。
小编叨逼叨:
脱离业务谈技术都是耍流氓。任何技术都不是完美的,结合业务选择合适的技能负责任的好猿。
网友评论