分词

作者: 小眼睛的露鹿酱 | 来源:发表于2019-04-10 10:01 被阅读0次

分词背后的技术

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于目前就是基于规则,理解和统计的分词方法。

  1. 基于词典匹配方法:字符串匹配以及机械分词等
    • 正向最大匹配: 从左到右,从最大词到最小, 第一个到最后一个
    • 邻近匹配算法
    • 逆向最大匹配算法 : 优于正向
    • 双向最大匹配算法: 正反匹配后取重合
    • 最短路径匹配算法: 构成图, 找最短路径
      太依赖辞典 , 太慢
  1. 基于规则方法(基于语义)
    大文本中 相邻词共同出现的次数决定了词之间的可信度,当高于一定的频率时就能构成一个词。
    • N-gram: 第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积 。
    • 隐马尔可夫
  1. 基于统计的方法(不需要依赖字
    典)
  • N-gram模型
  • 隐马尔可夫模型 (原文
  • 神经网络
  • 专家系统分词

分词工具一览表

参考知乎上的一篇文章史上最全中文分词工具整理
目前的分词工具都支持:java python c++
常用的有:

  1. HanLP 文档 里面包含基本的中文分析应用, 还有word2vec, 简体繁体转换等
  2. jieba分词 有多个语言版本,包含java python php等
  3. LTP 哈工大推出的语言技术平台, C++版本的已经完善, java版本的还在进行中
  4. THULAC 清华大写推出的中文语法分析工具包,目前只有分词和词性分析。包含java c++ python
  5. NLPIR 中科院的工具, java的, 里面包含分词, 标注 识别 分析等
  6. BosonNLP 商业 支持rest 免费调用 很好的
  7. 百度 阿里 腾讯都有, 并支持rest调用
  8. 国外的: NLTK, stanfordNLP

相关文章

  • Elasticsearch实现中文、拼音分词、繁简体转换高级搜索

    一、Elasticsearch分词 分词分为读时分词和写时分词。 1.1 读时分词 读时分词发生在用户查询时,ES...

  • 初中英语语法(010)-分词

    分词 分词分为现在分词和过去分词,需要注意的是,现在分词和过去分词都是由动词变化而来,但现在分词不同于现在时,过去...

  • 【英语】语法俱乐部_6_分词

    分词概述 分词包括现在分词(Ving)和过去分词(Vpp),是动状词的一个分支,分词在句子中可以视为形容词。 分词...

  • 分词

    分词分为现在分词和过去分词。 现在分词有主动进行的意思,过去分词有被动完成的意思。 分词的用法包括:作表语,作定语...

  • ES中文分词器之精确短语匹配(解决了match_phrase匹配

    分词器选择 调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好。举个例子:...

  • 配置Hanlp自然语言处理进阶

    中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持jav...

  • elasticsearch之八分词器

    个人专题目录 1. 中文分词器 IK分词器 1.1 分词器 analyzer 什么是分词器 analyzer 分词...

  • 【告别巴别塔】英语的真相

    英语当中的分词包括现在分词和过去分词,但是现在分词和过去分词不表示时间,现在分词不表示现在的概念,而是表示动作的主...

  • 分词练习1——分词工具包

    关于分词工具包的体验:分词练习2——分词体验 现有的分词工具包 (1)NLPIR NLPIR汉语分词系统,又名IC...

  • elasticsearch分词器

    一、es内置分词器 只支持英文分词,不支持中文分词 2、es内置分词器 standard:默认分词,单词会被拆分,...

网友评论

      本文标题:分词

      本文链接:https://www.haomeiwen.com/subject/xaafuqtx.html