Day 2 中文分词算法

作者: KeenorHam | 来源:发表于2015-03-02 23:24 被阅读324次

    与拉丁语系语言不同,汉藏语系的自然语言中词汇是没有自然分割开的,因此中文分词是中文自然语言处理的第一步(不过可以考虑和后面的步骤结合在一起来降低算法复杂度啊……然后还可以考虑仿生算法),所以先研究和总结一下现有的中文分词算法。

    本文许多内容参考这篇文献,感谢分享。本文就是在理解这篇文献的基础上加点私货。

    文献中看到(当然这个不是权威文献,可能不够可靠),斯坦福的CRF好像是现在效果最好的算法(中文分词算法最好的竟然是外国研究机构也是醉了),但是算法复杂度比较大,效率不够高,所以我们来讨论一下一些常用的模型。

    字典匹配

    最简单的就是字典匹配,其实跟暴力破解里面的一些想法比较类似,就是搞个词库,然后遍历对比词库里有没有这个词。当然有时候还要考虑到整个句子分解的完整性,最经典的就是“最大匹配”的思想,就是尽可能的匹配最长的词,比如我的句子里有“马克思主义”这个词,而我的词典里有“马克思”和“马克思主义”这两个词,肯定是去匹配“马克思主义”这个最长的词。其实可以理解为“马克思主义”的匹配优先级比“马克思”高,其实我觉得都不需要额外的计算量,只要把合成词的优先级调整在原词前面就好了。
    [个人疑惑:在这个过程中是不是要保证匹配出的词汇数也尽量小]

    统计与消除歧义

    当然,我在Day 0里就提到了,所有的计算机项目如果没有“社科经验”的指导是很难提高效率的,其实这就是所谓的“启发式”算法,在分词算法中比较有名的之一就是MMSEG。在这个算法中也延伸到了第二种分词思路,统计消除歧义。
    举个简单的例子,“黑键盘/算什么”在没有消除歧义的情况下有可能被分成“黑键/盘算/什么”。
    MMSEG算法采取了以下四个规则来消除歧义:

    1. 选取最大匹配词汇;
    2. 最大平均单词长度;
    3. 单词长度的最小方差;
    4. 单字单词的语素自由度的最大和(一个汉字的出现频率可以作为它的语素自由度的索引。一个高频率的汉字更可能是一个单字单词,反之亦然。)
      具体规则内容和实例可以查看这篇文献翻译

    而统计算法的实例可以参见这篇文章

    对于一个中文字符串“a1a2a3...an”如何正确的用词语c1,c2..cm表示就是中文分词的任务,也就是说我们要去找寻P(c1c2..cm)最大的分词,按照马尔科夫链的想法就是说我们就是求P(c1)P(c1|c2)P(c1c2|c3)...P(c1c2...cm-1|cm)最大。按照阿卡姆剃刀的想法我们可以假设一个最可能的实现,于是google黑板报的假设就是每个词只跟前面的词有关,于是变为求P(c1)P(c1|c2)P(c2|c3)...P(cm-1|cm)最大。进一步的其实我们可以假设每个词都是相对独立的,也就是求P(c1)P(c2)...P(cm)最大,那么这个怎么求呢,就是用dp的方法。

    解决字典中不存在的词语

    隐马尔可夫模型HMM(Hidden Markov Model)(<-这个项目简直就是救星,感觉基础模型就可以照做了,不过千万不能抄袭。)基于字标注的分词,把分词问题转变为标注问题。
    例如:“我s喜b欢e天b安m门e”
    其中标注的含义为
    s:single(标注前为单字)
    b:begin(标注前为词语开始)
    m:middle(标注前为词语中间)
    e:end(标注前卫词语末尾)

    进一步的概率模型

    在对语义处理的过程中最大熵模型ME(Maximum Entropy)、最大熵马尔可夫模型MEMM(Maximum-entropy Markov model)和条件随机场CRF(Conditional Random Field)被分别提出(这也是我在开头提到的,既然都开始分析语义了,自然可以把分词和后续的语义分析过程结合在一起了)。
    这篇文章介绍了信息熵的概念,信息熵越大不确定性也就越大,信息熵最大时表示各种概率的均等分布,也就是个不偏不倚的猜测,最大熵模型一般就是在已知条件下,来求是的熵最大的情况。
    p¯(f)=Σp¯(ai,ci)∗f(ai,ci)=p(f)=Σp(ci|ai)∗p¯(ai)∗f(ai,ci)
    在已知条件下就是求熵最大的情况
    argmaxH(ci|ai)
    因为这些算法我还没有深入了解,就不继续抄袭这篇文献了,有兴趣的同学可以去看看,如果我有深入了解和新的理解之后之后过几天再更新,并且会在这篇更新链接。

    Deep Learning

    这篇2013年的文献已经采用了Deep Learning的方法解决分词问题。具体而简洁地说就是神经网络什么的,有空再深入挖掘。

    (PS:昨天的Intro我没忘,不过今天晚上跟男神去电影院刷了一下<Big Hero 6>,所以明天再战咯~)

    That's all for today. See you tomorrow.
    Kevin Ham@Wuhu
    Department of Internet Engineering, Anhui Normal University, Wuhu, China
    3.2.2015

    相关文章

      网友评论

        本文标题:Day 2 中文分词算法

        本文链接:https://www.haomeiwen.com/subject/srlmxttx.html