美文网首页
中文分词十年回顾

中文分词十年回顾

作者: galois_xiong | 来源:发表于2017-05-19 16:21 被阅读0次

    中文分词四个难题

    • 词的清晰定义
    • 分词和理解熟先熟后
    • 分词歧义消解
    • 未登录词

    词的清晰界定

    规范+词表 到分词语料库的词语定义过程;
    语料标注的质量取决于一下三条:

    1. 严格执行词表驱动原则:
      词表驱动,就是在上下文未见歧义的情况下,词表词应当作为一个完整的切分单位,决不许随意切碎或组合。
      必须杜绝所谓的“语法词” (比词表词短)和“心理词”(非词表词,又不属于新词)的干扰
    2. 把人名, 地名, 机构等命名实体和日期,时间等数字表达式的定义纳入分词规范;
      保证分词标注质量的第二条措施是把人名、地名、机构名等命名实体和日期、时间等数字表达式的定义纳入分词规范。一方面,这是因为实体词的识别任务与自动分词任务,你中有我,我中有你,是不可分割的整体。另一方面,是因为这些实体词占了文本中未登录词的大约三分之二,把它们定义清楚了肯定有助于进一步提高标注的一致性。
    3. 把规范制定和语料标注两个过程紧密结合起来。
      让分词的规范的制定与分词语料的标注,审定过程交互进行。因为词表只是对词语的一种静态描写,没有说明每个词进入句子以后同周围的词发生的黏着,竞争,重组等复杂行为。当文本中动态出现未登录词,交集型歧义,组合型歧义等现象时,需要在分词规范中引用带标语料库的大量实例来进一步完善下面举些例子
      和/道班/工人/吃/住/在/一起/。
      最近/,/内蒙古/赤峰市/又/发生/一/起/,1,/煤窑/淹/井/事故/,/17/人/死亡/。
      香港中旅/与/中国/旅行社/一道/,/努力/降低/内地/赴/港/旅游团/价格/
      红/马甲/成为/沈阳/初夏/文化/市场/一/道/亮/丽/的/风景/线/。
      2005—2006年微软亚洲研究院(MSRA)提供给Bake off的语料库,由于严格实施质量控制,其百万词级训练语料库的出错率低于千分之一,十万词级测试语料库的出错率低于万分之五
      分词的评价指标:
      评价指标是分词召回率R、准确率P以及R和P的平均值F1
      准确率定义为给定分词结果中切分正确的词次数除以该分词结果中的总词次数
      召回率定义为给定分词结果中切分正确的词次数除以标准答案中的总词次数

    分词和理解熟先熟后

    由于自动分词是大部分中文信息处理系统的第一步(即前端),是对句子实施句法一语义分析的前提。也就是说,自动分词所依据的只能是文本的表层信息。所以,尽管人在识别句子中的词语时是以理解为基础的,然而从实用的角度考虑,计算机自动分词系统不可能完全照搬人类的分词模式,而通常会选择“先分词后理解”的处理策略。
    也就是说分词在先,理解在后。

    未登录词对分词精度的影响

    长期以来,研究人员一直把未登录词和分词歧义并列为影响分词精度的两大因素。十年来,研究人员在这两个问题上倾注了大量的精力,探索过各种各样的解决方案。其中,对交集型歧义字串进行的大规模语料库调查,以及明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获。
    每届 Bake off 都用正向最大匹配(Forward Maximum Matching , 简称 FMM)算法对每个语料库进行带有未登录词的基线(Baseline)和不含未登录词的顶线(Topline)两种切分, 并分别形成两套性能指标,验证了未登录次对分词的影响最大。
    这个结论给我们的重要启示是 :在考虑自动分词系统的总体方案时, 那些能够大幅度提升未登录词识别性能的分词方法 ,一般来讲,也将提高分词系统的总体性能 。Bakeoff-2003 及其后的分词技术发展趋势完全证实了这样一个推断。

    基于字的分词方法

    在 2002 年之前 ,自动分词方法基本上是基于词(或词典)的, 在此基础上可进一步分成基于规则和基于统计的两大类。以往的分词方法, 无论是基于规则的还是基于统计的 ,一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策 。
    与此相反 , 基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位), 假如规定每个字最多只有四个构词位置:即 B(词首), M (词中),E(词尾)和 S(单独成词)。
    (甲)分词结果 :/上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/ 。
    (乙)字标注形式 :上/B 海/E 计/B 划/ E 到/S本/S 世/B 纪/E 末/S 实/B 现/E 人/B均/ E 国/B 内/E 生/B产/E 总/B 值/E五/B 千/M 美/M 元/E 。/S
    经过实验与实际过程的验证: 字的分词方法已经被证明由于其它方法。
    现在较常见的是基于HMM的和基于CRF的分词方法。近来随着深度学习的兴起,基于LSTM的分词模型也在探索中。

    Reference

    http://jcip.cipsc.org.cn/UserFiles/File/473%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%8D%81%E5%B9%B4%E5%9B%9E%E9%A1%BE_%E9%BB%84%E6%98%8C%E5%AE%81.pdf
    http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90

    相关文章

      网友评论

          本文标题:中文分词十年回顾

          本文链接:https://www.haomeiwen.com/subject/vybyxxtx.html