Day 2 中文分词算法

作者: KeenorHam | 来源:发表于2015-03-02 23:24 被阅读324次

Day 2 中文分词算法
MMSeg4J中文分词包使用报告
mmseg4j中文分词包学习报告
基于Trie 树实现简单的中文分词
mmseg4j中文分词包使用
Lucene中文分词
jieba分词基本使用
mmseg4j中文分词包使用报告
【Spark学习笔记】ansj词性说明
Python 分词工具 jieba

与拉丁语系语言不同，汉藏语系的自然语言中词汇是没有自然分割开的，因此中文分词是中文自然语言处理的第一步（不过可以考虑和后面的步骤结合在一起来降低算法复杂度啊……然后还可以考虑仿生算法），所以先研究和总结一下现有的中文分词算法。

本文许多内容参考这篇文献，感谢分享。本文就是在理解这篇文献的基础上加点私货。

文献中看到（当然这个不是权威文献，可能不够可靠），斯坦福的CRF好像是现在效果最好的算法（中文分词算法最好的竟然是外国研究机构也是醉了），但是算法复杂度比较大，效率不够高，所以我们来讨论一下一些常用的模型。

字典匹配

最简单的就是字典匹配，其实跟暴力破解里面的一些想法比较类似，就是搞个词库，然后遍历对比词库里有没有这个词。当然有时候还要考虑到整个句子分解的完整性，最经典的就是“最大匹配”的思想，就是尽可能的匹配最长的词，比如我的句子里有“马克思主义”这个词，而我的词典里有“马克思”和“马克思主义”这两个词，肯定是去匹配“马克思主义”这个最长的词。其实可以理解为“马克思主义”的匹配优先级比“马克思”高，其实我觉得都不需要额外的计算量，只要把合成词的优先级调整在原词前面就好了。
[个人疑惑：在这个过程中是不是要保证匹配出的词汇数也尽量小]

统计与消除歧义

当然，我在Day 0里就提到了，所有的计算机项目如果没有“社科经验”的指导是很难提高效率的，其实这就是所谓的“启发式”算法，在分词算法中比较有名的之一就是MMSEG。在这个算法中也延伸到了第二种分词思路，统计消除歧义。
举个简单的例子，“黑键盘/算什么”在没有消除歧义的情况下有可能被分成“黑键/盘算/什么”。
MMSEG算法采取了以下四个规则来消除歧义：

选取最大匹配词汇；
最大平均单词长度；
单词长度的最小方差；
单字单词的语素自由度的最大和（一个汉字的出现频率可以作为它的语素自由度的索引。一个高频率的汉字更可能是一个单字单词，反之亦然。）
具体规则内容和实例可以查看这篇文献翻译。

而统计算法的实例可以参见这篇文章

对于一个中文字符串“a1a2a3...an”如何正确的用词语c1,c2..cm表示就是中文分词的任务，也就是说我们要去找寻P(c1c2..cm)最大的分词，按照马尔科夫链的想法就是说我们就是求P(c1)P(c1|c2)P(c1c2|c3)...P(c1c2...cm-1|cm)最大。按照阿卡姆剃刀的想法我们可以假设一个最可能的实现，于是google黑板报的假设就是每个词只跟前面的词有关，于是变为求P(c1)P(c1|c2)P(c2|c3)...P(cm-1|cm)最大。进一步的其实我们可以假设每个词都是相对独立的，也就是求P(c1)P(c2)...P(cm)最大，那么这个怎么求呢，就是用dp的方法。

解决字典中不存在的词语

隐马尔可夫模型HMM（Hidden Markov Model）(<-这个项目简直就是救星，感觉基础模型就可以照做了，不过千万不能抄袭。)基于字标注的分词，把分词问题转变为标注问题。
例如：“我s喜b欢e天b安m门e”
其中标注的含义为
s：single（标注前为单字）
b：begin（标注前为词语开始）
m：middle（标注前为词语中间）
e：end（标注前卫词语末尾）

进一步的概率模型

在对语义处理的过程中最大熵模型ME（Maximum Entropy）、最大熵马尔可夫模型MEMM（Maximum-entropy Markov model）和条件随机场CRF（Conditional Random Field）被分别提出（这也是我在开头提到的，既然都开始分析语义了，自然可以把分词和后续的语义分析过程结合在一起了）。
这篇文章介绍了信息熵的概念，信息熵越大不确定性也就越大，信息熵最大时表示各种概率的均等分布，也就是个不偏不倚的猜测，最大熵模型一般就是在已知条件下，来求是的熵最大的情况。
p¯(f)=Σp¯(ai,ci)∗f(ai,ci)=p(f)=Σp(ci|ai)∗p¯(ai)∗f(ai,ci)
在已知条件下就是求熵最大的情况
argmaxH(ci|ai)
因为这些算法我还没有深入了解，就不继续抄袭这篇文献了，有兴趣的同学可以去看看，如果我有深入了解和新的理解之后之后过几天再更新，并且会在这篇更新链接。