分词

作者: 小眼睛的露鹿酱 | 来源:发表于2019-04-10 10:01 被阅读0次

    分词背后的技术

    现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于目前就是基于规则,理解和统计的分词方法。

    1. 基于词典匹配方法:字符串匹配以及机械分词等
      • 正向最大匹配: 从左到右,从最大词到最小, 第一个到最后一个
      • 邻近匹配算法
      • 逆向最大匹配算法 : 优于正向
      • 双向最大匹配算法: 正反匹配后取重合
      • 最短路径匹配算法: 构成图, 找最短路径
        太依赖辞典 , 太慢
    1. 基于规则方法(基于语义)
      大文本中 相邻词共同出现的次数决定了词之间的可信度,当高于一定的频率时就能构成一个词。
      • N-gram: 第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积 。
      • 隐马尔可夫
    1. 基于统计的方法(不需要依赖字
      典)
    • N-gram模型
    • 隐马尔可夫模型 (原文
    • 神经网络
    • 专家系统分词

    分词工具一览表

    参考知乎上的一篇文章史上最全中文分词工具整理
    目前的分词工具都支持:java python c++
    常用的有:

    1. HanLP 文档 里面包含基本的中文分析应用, 还有word2vec, 简体繁体转换等
    2. jieba分词 有多个语言版本,包含java python php等
    3. LTP 哈工大推出的语言技术平台, C++版本的已经完善, java版本的还在进行中
    4. THULAC 清华大写推出的中文语法分析工具包,目前只有分词和词性分析。包含java c++ python
    5. NLPIR 中科院的工具, java的, 里面包含分词, 标注 识别 分析等
    6. BosonNLP 商业 支持rest 免费调用 很好的
    7. 百度 阿里 腾讯都有, 并支持rest调用
    8. 国外的: NLTK, stanfordNLP

    相关文章

      网友评论

          本文标题:分词

          本文链接:https://www.haomeiwen.com/subject/xaafuqtx.html