美文网首页
分词方法笔记

分词方法笔记

作者: 小白一枚ha | 来源:发表于2019-07-23 22:11 被阅读0次

    一、关于分词 原则

    • 颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好
    • 切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术 和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者
    • 总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。

    二、分词算法

    1. 基于词典(字符串)的方法

    (1) 正向最大匹配法
    给定一个词的最大长度,以该长度进行切分,看看切出来的词是否在词典中出现,如果出现的话,该词就是切词的结果,否则缩短词的长度。
    缺陷:效率不高,尤其对于长文本分词、精确度不高、不能解决词的歧义问题
    (2)逆向最大匹配法
    同正向一样,只不过是从后往前进行。
    (3)双向最大匹配
    先进行一次正向最大匹配,得到正向的分词结果,然后在进行一次反向最大匹配,得到反向的分词结果,返回长度最小的结果

    什么是最大匹配法?
    最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。

    例子:
    1、正向最大匹配法:
    正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。
    第1次:“我们在野生动物”,扫描7字词典,无
    第2次:“我们在野生动”,扫描6字词典,无
    ……
    第6次:“我们”,扫描2字词典,有
    扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即:
    第2轮扫描:
    第1次:“在野生动物园玩”,扫描7字词典,无
    第2次:“在野生动物园”,扫描6字词典,无
    ……
    第6次:“在野”,扫描2字词典,有
    扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,即:
    第3轮扫描:
    第1次:“生动物园玩”,扫描5字词典,无
    第2次:“生动物园”,扫描4字词典,无
    第3次:“生动物”,扫描3字词典,无
    第4次:“生动”,扫描2字词典,有
    扫描中止,输出第3个词为“生动”,第4轮扫描,即:
    第4轮扫描:
    第1次:“物园玩”,扫描3字词典,无
    第2次:“物园”,扫描2字词典,无
    第3次:“物”,扫描1字词典,无
    扫描中止,输出第4个词为“物”,非字典词数加1,开始第5轮扫描,即:
    第5轮扫描:
    第1次:“园玩”,扫描2字词典,无
    第2次:“园”,扫描1字词典,有
    扫描中止,输出第5个词为“园”,单字字典词数加1,开始第6轮扫描,即:
    第6轮扫描:
    第1次:“玩”,扫描1字字典词,有
    扫描中止,输出第6个词为“玩”,单字字典词数加1,整体扫描结束。

    正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”,其中,单字字典词为2,非词典词为1。

    2、逆向最大匹配法:
    逆向即从后往前取词,其他逻辑和正向相同。即:
    第1轮扫描:“在野生动物园玩”
    第1次:“在野生动物园玩”,扫描7字词典,无
    第2次:“野生动物园玩”,扫描6字词典,无
    ……
    第7次:“玩”,扫描1字词典,有
    扫描中止,输出“玩”,单字字典词加1,开始第2轮扫描
    第2轮扫描:“们在野生动物园”
    第1次:“们在野生动物园”,扫描7字词典,无
    第2次:“在野生动物园”,扫描6字词典,无
    第3次:“野生动物园”,扫描5字词典,有
    扫描中止,输出“野生动物园”,开始第3轮扫描
    第3轮扫描:“我们在”
    第1次:“我们在”,扫描3字词典,无
    第2次:“们在”,扫描2字词典,无
    第3次:“在”,扫描1字词典,有
    扫描中止,输出“在”,单字字典词加1,开始第4轮扫描
    第4轮扫描:“我们”
    第1次:“我们”,扫描2字词典,有
    扫描中止,输出“我们”,整体扫描结束。
    逆向最大匹配法,最终切分结果为:“我们/在/野生动物园/玩”,其中,单字字典词为2,非词典词为0。

    3、双向最大匹配法:
    正向最大匹配法和逆向最大匹配法,都有其局限性,我举得例子是正向最大匹配法局限性的例子,逆向也同样存在(如:长春药店,逆向切分为“长/春药店”),因此有人又提出了双向最大匹配法,双向最大匹配法。即,两种算法都切一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果输出。
    如:“我们在野生动物园玩”
    正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”,其中,两字词3个,单字字典词为2,非词典词为1。
    逆向最大匹配法,最终切分结果为:“我们/在/野生动物园/玩”,其中,五字词1个,两字词1个,单字字典词为2,非词典词为0。
    非字典词:正向(1)>逆向(0)(越少越好)
    单字字典词:正向(2)=逆向(2)(越少越好)
    总词数:正向(6)>逆向(4)(越少越好)
    因此最终输出为逆向结果。

    2. 基于统计:

    对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。
    优点,能很好处理歧义和未登录词问题。 缺点,需要大量的人工标注数据,以及较慢的分词速度。基于HMM的分词**

    ** 关于HMM**
    这是一个预测问题,预测隐藏序列。 状态序列集合为 {S, B, M, E}, 观测序列就是待切分的句子,要求就是预测这个句子的每个单词的状态,最后根据状态进行切词。

    • 首先要获取 状态转移矩阵 和 发射矩阵, 这个可以根据训练集统计得到,也就是 每个状态之间转移的概率和每个状态产生该词概率,以及最初的状态(就是每个状态在句首的概率)
    • 然后就可以用Vertibi算法进行预测了
      从最初状态开始,求这四个状态分别可以产生 第一个字符串的概率,并记录每个状态下的概率判断第二个字符,首先由上一个时间状态下的状态 转移到当前时间状态, 并且取当前时间下每个状态能得到当前位置字符概率最大的那个,然后在记录一下上一个状态, 一直到最后...
      最后根据 状态序列进行分词

    3. 基于N-gram的分词(2-gram)
    2-gram语言模型是对于一个句子‘ABCD‘,他的概率为:P(ABCD) = P(A|S) * P(B|A) * P(C|B) * P(D|C)
    对句子中每一个位置的进行如下操作:
    遍历所有以该位置为结尾的词(词的长度有限制),找到该词之后在往前找到前一个词,这两个词就形成了一个切分结果,然后求所有的切分结果中概率最大值

    4. 基于理解:

    通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

    部分分词工具:

    中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
    ansj分词器 https://github.com/NLPchina/ansj_seg
    哈工大的LTP https://github.com/HIT-SCIR/ltp
    清华大学THULAC https://github.com/thunlp/THULAC
    斯坦福分词器,Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml
    Hanlp分词器,求解的是最短路径。 https://github.com/hankcs/HanLP
    结巴分词,基于前缀词典,生成句子中所有可能成词所构成的有向无环图 (DAG),采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了 HMM 模型,使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba
    KCWS分词器(字嵌入+Bi-LSTM+CRF),本质上是序列标注。 https://github.com/koth/kcws
    ZPar https://github.com/frcchang/zpar/releases
    IKAnalyzer https://github.com/wks/ik-analyzer

    三、jieba分词:

    特点

    1. 支持三种分词模式:
      • 精确模式,试图将句子最精确地切开,适合文本分析;
      • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
      • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
    2. 支持繁体分词
    3. 支持自定义词典
    4. MIT 授权协议

    算法

    • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
    • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
    • 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

    主要功能

    1. 分词

    (1) jieba.cut 方法接受三个输入参数:

    • 需要分词的字符串;
    • cut_all 参数用来控制是否采用全模式;
    • HMM 参数用来控制是否使用 HMM 模型

    (2) jieba.cut_for_search 方法接受两个参数:

    • 需要分词的字符串;
    • 是否使用 HMM 模型。

    该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
    待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

    jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

    (3) jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

    实例:

    # encoding=utf-8
    import jieba
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("Full Mode: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print(", ".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print(", ".join(seg_list))
    

    输出结果:

    【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
    
    【精确模式】: 我/ 来到/ 北京/ 清华大学
    
    【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
    
    【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
    

    来源:CSDN
    文章引用:https://www.cnblogs.com/zhaopAC/p/9983464.html
    https://blog.csdn.net/qq_34337272/article/details/79554772

    源码:https://github.com/liuhuanyong/WordSegment

    相关文章

      网友评论

          本文标题:分词方法笔记

          本文链接:https://www.haomeiwen.com/subject/pnqalctx.html