分词背后的技术
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于目前就是基于规则,理解和统计的分词方法。
- 基于词典匹配方法:字符串匹配以及机械分词等
- 正向最大匹配: 从左到右,从最大词到最小, 第一个到最后一个
- 邻近匹配算法
- 逆向最大匹配算法 : 优于正向
- 双向最大匹配算法: 正反匹配后取重合
- 最短路径匹配算法: 构成图, 找最短路径
太依赖辞典 , 太慢
- 最短路径匹配算法: 构成图, 找最短路径
- 基于规则方法(基于语义)
大文本中 相邻词共同出现的次数决定了词之间的可信度,当高于一定的频率时就能构成一个词。
- N-gram: 第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积 。
- 隐马尔可夫
- 基于统计的方法(不需要依赖字
典)
- N-gram模型
- 隐马尔可夫模型 (原文)
- 神经网络
- 专家系统分词
分词工具一览表
参考知乎上的一篇文章史上最全中文分词工具整理
目前的分词工具都支持:java python c++
常用的有:
网友评论