中文分词常用方法简述

作者: 不会停的蜗牛 | 来源:发表于2017-10-11 10:47 被阅读653次

中文分词

就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。

三类分词算法:

1. 基于字符串匹配:

将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。

优点,速度快,都是O(n)时间复杂度,实现简单。
缺点,对歧义和未登录词处理不好。

此类型中常用的几种分词方法有:

  • 1. 正向最大匹配法
    假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。(链接:http://www.jianshu.com/p/e978053b0b95

  • 2. 逆向最大匹配法
    与正向的区别在于如果匹配不成功则减去最前面的一个字。

  • 3. 最少切分
    使每一句中切出的词数最少。

2. 基于理解:

通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

3. 基于统计:

对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

优点,能很好处理歧义和未登录词问题。
缺点,需要大量的人工标注数据,以及较慢的分词速度。

部分分词工具:

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器,Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器,求解的是最短路径。 https://github.com/hankcs/HanLP
结巴分词,基于前缀词典,生成句子中所有可能成词所构成的有向无环图 (DAG),采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了 HMM 模型,使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF),本质上是序列标注。 https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer


相关文章:
一个隐马尔科夫模型的应用实例:中文分词

学习资料:
http://www.jianshu.com/p/e978053b0b95
https://www.zhihu.com/question/19578687/answer/190569700


推荐阅读 历史技术博文链接汇总
http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的:
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

相关文章

  • 中文分词常用方法简述

    中文分词 就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。 三类分词算法: 1....

  • 分词系统评测

    1.11款开放中文分词引擎大比拼 2.常用的开源中文分词工具 3.11大Java开源中文分词器的使用方法和分词效果...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • ElasticSearch 中文分词器

    常用的中文分词器 Smart Chinese Analysis: 官方提供的中文分词器,不好用。 IKAnalyz...

  • 【Spark学习笔记】ansj词性说明

    背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源...

  • 机器学习学习笔记(1)

    1. 分词方法 中文分词方法可以分为以下几种:1) 基于统计的分词方法 基于统计的分词法的基本原理是根据字符串在语...

  • 中文分词方法

    中文分词是中文自然语言处理的基础,现代语言分析处理算法基本是以词为单位进行计算的。 1、词典匹配 词典匹配是分词最...

  • 中文分词方法

    什么是中文分词 众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才...

  • mmseg4j中文分词包使用报告

    目录 认识中文分词包(下载、安装及运行) 分词方法与效果分析 分词算法学习 分词结果提交(2017/5/24完善方...

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

网友评论

本文标题:中文分词常用方法简述

本文链接:https://www.haomeiwen.com/subject/jtgiyxtx.html