（三）分词技术及开源分词器

（三）分词技术及开源分词器

作者: 天生smile | 来源:发表于2018-12-04 09:43 被阅读0次

（三）分词技术及开源分词器
HanLP自然语言处理包开源
elk--笔记6-安装ik分词器
ES中文分词器之精确短语匹配（解决了match_phrase匹配
elasticsearch之八分词器
分词系统评测
Elasticsearch-自动补全
通过Analyzer进行分词
HashMap实现中文分词器
触类旁通Elasticsearch之吊打同行系列：分析篇

分词是绝大部分自然语言处理的第一步，我们主要从序列标注的角度介绍下HMM如何实现分词的，然后介绍Hanlp和海量分词两个工具包在python环境下进行分词。在NLP中，分词，词性标注和实体命名识别都属于序列标注任务，也就是对序列的每个token进行分类，对于分词任务，难点如下：

1.新词发现

未登录词（人名、机构名、商标名、公司名称）

2.词典与算法优先级

我们中信仰佛教的人

3.歧义（颗粒度、交集等）

股份有限公司、郑州天和服装厂

分词的算法大致分为两种：

1.基于词典的分词算法

正向最大匹配算法

逆向最大匹配算法

双向匹配分词法

2.基于统计的机器学习算法

HMM、CRF、SVM、LSTM+CRF

这里列出一些开源的分词系统：

中科院计算所NLPIR ansj分词器哈工大的LTP 清华大学斯坦福分词器 Hanlp分词器

结巴分词 KCWS分词器(字嵌入+Bi-LSTM+CRF) ZPar IKAnalyzer

接下来采取理论与代码相结合的方式，介绍HMM分词器的使用：

在这里我直接抠了两张之前做PPT的图：

这两张图比较简单，这里我们暂时只考虑最简单的一阶马尔科夫模型。

第二张图中的A,B向量也就是我们需要从训练师数据中获得的内容，下面从代码的角度对这个问题进行说明：

1.数据准备——已分好词的语料

2.根据语料统计转移概率矩阵A和混淆矩阵B，这里进行详细说明

- 对于每个词我们都会按照如下方式为他打上标签：

- 根据语料我们会统计四个参数：

1.label的转移概率矩阵，也就是A矩阵：

2.每个词中的字出现过的状态：

例如“，”就只有s这一种状态

3.接下来就统计每个状态对应的每个字出现过的频率，利用这个频次计算混淆概率B

4.计算下每个label出现的次数

5.统计下y0，也就是初始状态的概率，显然M,E不可能出现在开头

将上述统计值转为频率值，就是最开始PPT中的A,B,y0矩阵

上述的统计值就是我们得到的HMM模型参数，接下来就利用维特比算法来进行decode，维特比的原理大致如下：

注意网上好多HMM的维特比解码算法是错误的，无法处理未登录词，主要是对于未登录词的处理，详细过程见代码。

这里可以看一下分词结果！

这只是一个练手的小Demo。

使用海量分词

这里给出海量分词的下载路径，里面的doc文件夹有python接口的使用方式，详细例子见代码hlseg/test.py，这里有些注意事项：

- 使用海量分词首先要设置JDK，注意红色部分的说明

- 黄色部分就是压缩包中的lib下的文件路径

- test.py 中给出了分词添加字典和控制分词粒度的代码

相关文章

（三）分词技术及开源分词器
分词是绝大部分自然语言处理的第一步，我们主要从序列标注的角度介绍下HMM如何实现分词的，然后介绍Hanlp和海量分...
HanLP自然语言处理包开源
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 ...
elk--笔记6-安装ik分词器
elasticsearch默认分词器的了解elasticsearch的ik分词器的安装（ik由国内大神开源）ik分...
ES中文分词器之精确短语匹配（解决了match_phrase匹配
分词器选择调研了几种分词器，例如IK分词器，ansj分词器，mmseg分词器，发现IK的分词效果最好。举个例子：...
elasticsearch之八分词器
个人专题目录 1. 中文分词器 IK分词器 1.1 分词器 analyzer 什么是分词器 analyzer 分词...
分词系统评测
1.11款开放中文分词引擎大比拼 2.常用的开源中文分词工具 3.11大Java开源中文分词器的使用方法和分词效果...
Elasticsearch-自动补全
零、本文纲要一、自动补全二、使用拼音分词三、自定义分词器1、分词器的组成2、使用自定义分词器四、ES自动补...
通过Analyzer进行分词
一、Analysis 与 Analyzer 分词器会将词语都转换成小写二、Analyzer 分词器三、使用 _...
HashMap实现中文分词器
今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。作者简介： Ansj分词...
触类旁通Elasticsearch之吊打同行系列：分析篇
目录一、什么是分析二、分析文三、分析API 四、分析器、分词器、分词过滤器内置分析器分词器分词过滤器 ...

网友评论

本文标题：（三）分词技术及开源分词器

本文链接：https://www.haomeiwen.com/subject/fqwecqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|（三）分词技术及开源分词器|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！