美文网首页
关于分词的一些思考

关于分词的一些思考

作者: Ombres | 来源:发表于2019-06-24 20:19 被阅读0次

在搜索领域就不得不提分词,分词的结果影响了搜索的召回率和准确率。

目前业界的分词方案有很多种,但是我觉得应该没有任何一种分词器是真正完美的,是完全准确的。在不同的领域不同的场景,应该选择不同的分词器。

之前我从事专利检索这方面的工作,在专利检索领域,大多数的专利工程师在使用专利检索系统时,还是习惯于老式的搜索方法,他们习惯于将关键词完全表示出来,再通过各种手段进行排除,比如 PA:华为 AND TI:芯片 NOT TI:移动 。这种场景中,很多人要求尽可能多的输出结果,对于不正确的结果,他们会以不同的形式进行排除,这也是专利检索的一大特点吧。

因为在很多场景下,有些专业名称的叫法,不同翻译连业界的专业人士都不一定能叫出来,同一个生物上的酯或者酶,可能都有几种不同的叫法,而且有时词也不全,如果分词的时候没有注意,那么可能导致最终无法查找到记录,而使用按字分词,则可以避免这种情况,而且也符合现有的专利检索工程师。

但是呢,也是应该与时俱进的,在提供传统的检索方法的时候,按字分词导致最终的评分可能出现问题,这种情况就需要我们使用分词的字段来进行查询。两者同时来为我们进行服务。而且我们也应当及时记录用户的输入,及时分析数据,获取一些关键词典,来扩充我们的词典,这样才能让现代的词典分词器更加was。

那么可以做两套分词方案,一套按照现代分词器分词,另外一套按照字分词。两者统一的情况下来达到应用的目的。

目前从事电商行业,在搜索方面,分词大都采用现代分词器,最常见的就是ik了。从我的接触来看来看电商领域的专有名词虽然没有专利领域多,但是实际上可能更新潮,更要求实时性。继续学习进步吧。

相关文章

  • 关于分词的一些思考

    在搜索领域就不得不提分词,分词的结果影响了搜索的召回率和准确率。 目前业界的分词方案有很多种,但是我觉得应该没有任...

  • 关于分词的一些思考

    经过一段时间的尝试,用分词中遇到了不少坑,这里记录一下。。。 我发现分词问题并不存在适用于所有领域的通用解决方案,...

  • Python--利用结巴进行分词

    本文首发于我的博客:gongyanli.com 前言:本文是一些关于jieba分词的简单操作,把文档进行分词后,然...

  • 分词练习1——分词工具包

    关于分词工具包的体验:分词练习2——分词体验 现有的分词工具包 (1)NLPIR NLPIR汉语分词系统,又名IC...

  • 机器学习笔记-文本分类(二)jieba分词

    分词就是词语切分了,关于分词的理论实现,以后再继续学习。此处用python的jieba分词工具直接分词。 jieb...

  • NLPIR分词Java接口(一):license问题和简单使用

    关于NLPIR分词 官方简介:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注...

  • gauva-splitter

    参考:Guava学习之Splitter 概述 Java 中关于分词的工具类会有一些古怪的行为。例如:String....

  • 如何在ubuntu使用hanlp

    前言 以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分...

  • 分词方法笔记

    一、关于分词 原则 颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表...

  • iOS关于换肤和夜间模式的一些思考

    iOS关于换肤和夜间模式的一些思考 iOS关于换肤和夜间模式的一些思考

网友评论

      本文标题:关于分词的一些思考

      本文链接:https://www.haomeiwen.com/subject/ycqaqctx.html