美文网首页
自然语言处理中的分词算法实现

自然语言处理中的分词算法实现

作者: Van_Tinker | 来源:发表于2019-06-03 15:53 被阅读0次

最近实现的3种中文分词算法

  • 基于最大匹配(前向匹配、后向匹配、双向匹配)
  • HMM
  • n-gram

基于最大匹配算法(基于词典)

  1. 最大前向匹配
  • 从左到右取待切分汉语句的m个字符作为匹配字段,m为词典中最长词条个数。
  • 查找词典并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来。
  1. 最大后向匹配
  • 从右到左切分汉语句的m个字符作为匹配字段,m为词典中最长词条个数。
  • 查找词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
  1. 双向最大向前匹配
  • 将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。
  • 启发式规则:1.如果正反向分词结果词数不同,则取分词数量较少的那个。2.如果分词结果词数相同。a.分词结果相同,就说明没有歧义,可返回任意一个。 b.分词结果不同,返回其中单字较少的那个。

小结:

基于最大匹配方法分词的效果取决于分词词典的大小与质量,分词的原则是尽量避免单个字的出现和尽可能少的分词数量。

基于HMM分词算法

隐马尔可夫模型的3个关键矩阵:初始概率矩阵、状态转移概率矩阵、发射概率矩阵。

  • 根据训练样本获取每个词的状态(S:单字词, B:词的开头,M:词的中间,E:词的末尾)
  • 如果是单字词,则记录第一个字的状态,用于计算初始状态概率。如果不是单字词,则统计状态转移次数,并计算对应的概率。
  • 通过上面步骤得到3个概率矩阵,并且由训练样本可得可观测序列,通过维特比算法(Viterbi)来求得在马尔可夫模型中最优的隐含状态。维特比算法其实就是一个求最短路径的动态规划问题。

基于n-gram语法模型分词算法

  • 根据语料获取每个词出现频次与每个词后接词语出现频次
  • 寻找当前字的最佳前驱节点,并记录累计概率

    基本概念如下图: n-gram.png

总结

算法比较
1、评测语料:微软评测语料,共3985个句子
2、性能比较

Algorithm Precision Recall F1-score Cost-Time
HMM 0.65 0.75 0.70 4.87
MaxForward 0.76 0.87 0.81 244.14
MaxBackward 0.76 0.87 0.81 280.61
MaxBiWard 0.76 0.87 0.81 443.23
MaxProbNgram 0.76 0.87 0.81 8.99
MaxBiwardNgram 0.74 0.86 0.80 3.96

相关文章

  • python 结巴分词学习

    结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可...

  • 自然语言处理中的分词算法实现

    最近实现的3种中文分词算法 基于最大匹配(前向匹配、后向匹配、双向匹配) HMM n-gram 基于最大匹配算法(...

  • 中文分词方法

    中文分词是中文自然语言处理的基础,现代语言分析处理算法基本是以词为单位进行计算的。 1、词典匹配 词典匹配是分词最...

  • 基于Trie 树实现简单的中文分词

    中文分词简介 中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需...

  • 中文分词工具及中文语料资源

    关键词: 中文分词;分词;自然语言处理;中文语料 最近要做中文自然语言处理相关任务,牵涉到使用中文分词工具和相关算...

  • NLP入门(1)-词典分词方法及实战

    分词是自然语言处理中最基本的任务之一,而词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词典的规则即可。 ...

  • 自然语言处理之分词3

    本节将介绍在自然语言处理分词或序列标注过程中应用较广泛的CRF条件随机场模型。 CRF算法是2001年提出,结合了...

  • Python中文分词工具:Jieba的基本使用

    今日分享:Jieba中文分词基础入门 近年来,随着NLP自然语言处理技术的日益成熟,开源实现的分词工具也越来越多,...

  • <<数学之美>> part1

    摘要 : [自然语言处理] [基于规则] [基于统计] [统计语言模型] [马尔科夫] [分词] 自然语言处理--...

  • 自然语言处理绪论

    1.词法分析歧义 自然语言处理中的歧义 分词歧义,作为自然语言处理的第一个步骤。 词性标注 语法分析歧义 语义分析...

网友评论

      本文标题:自然语言处理中的分词算法实现

      本文链接:https://www.haomeiwen.com/subject/vercxctx.html