在搜索领域就不得不提分词,分词的结果影响了搜索的召回率和准确率。
目前业界的分词方案有很多种,但是我觉得应该没有任何一种分词器是真正完美的,是完全准确的。在不同的领域不同的场景,应该选择不同的分词器。
之前我从事专利检索这方面的工作,在专利检索领域,大多数的专利工程师在使用专利检索系统时,还是习惯于老式的搜索方法,他们习惯于将关键词完全表示出来,再通过各种手段进行排除,比如 PA:华为 AND TI:芯片 NOT TI:移动 。这种场景中,很多人要求尽可能多的输出结果,对于不正确的结果,他们会以不同的形式进行排除,这也是专利检索的一大特点吧。
因为在很多场景下,有些专业名称的叫法,不同翻译连业界的专业人士都不一定能叫出来,同一个生物上的酯或者酶,可能都有几种不同的叫法,而且有时词也不全,如果分词的时候没有注意,那么可能导致最终无法查找到记录,而使用按字分词,则可以避免这种情况,而且也符合现有的专利检索工程师。
但是呢,也是应该与时俱进的,在提供传统的检索方法的时候,按字分词导致最终的评分可能出现问题,这种情况就需要我们使用分词的字段来进行查询。两者同时来为我们进行服务。而且我们也应当及时记录用户的输入,及时分析数据,获取一些关键词典,来扩充我们的词典,这样才能让现代的词典分词器更加was。
那么可以做两套分词方案,一套按照现代分词器分词,另外一套按照字分词。两者统一的情况下来达到应用的目的。
目前从事电商行业,在搜索方面,分词大都采用现代分词器,最常见的就是ik了。从我的接触来看来看电商领域的专有名词虽然没有专利领域多,但是实际上可能更新潮,更要求实时性。继续学习进步吧。
网友评论