基于BiLSTM-CNN-CRF的中文分词（二）

基于BiLSTM-CNN-CRF的中文分词（二）

作者: 起昵称真麻烦啊 | 来源:发表于2018-03-27 11:22 被阅读446次

基于BiLSTM-CNN-CRF的中文分词（二）
基于BiLSTM-CNN-CRF的中文分词（一）
NLP系列-中文分词（基于统计）
Lucene中文分词
机器学习学习笔记(1)
jieba分词基本使用
模块
【Spark学习笔记】ansj词性说明
Mmseg算法
中文分词器MMSEG4J分词练习

上文传送门：https://www.jianshu.com/p/5fea8f42caa9

Github：https://github.com/FanhuaandLuomu/BiLstm_CNN_CRF_CWS

（喜欢还请star、文章点赞支持）

在线演示：http://118.25.42.251:7777/fenci?type=mine&text=南京市长莅临指导，大家热烈欢迎。公交车中将禁止吃东西！

二、算法实现

2.1 语料资源

图1 语料资源图

图2 样本实例

上图为语料的存放。其中biaozhu_1_100为100篇标注好的法律文档，conll2012_new为conll2012的分词训练语料。语料中的文件按图2保存，词与词之间空格隔开。

2.2 预处理

读取corpus中的语料，通过process_data函数生成train.data，其格式如下：

图3 预处理函数1

图4 train.data格式

接着读取train.data（此处也可以不生成train.data中间文件，直接在内存计算），生成训练数据的原始格式。

图5 训练数据原始格式

create_documents函数中将训练语料中的句子按标点切分，避免了某些行过长、难以整个序列优化的问题。

图6 生成词典

生成词典时，0位保留，用作补长位。

图7 转化为数字化矩阵

将训练数据的原始格式转化为字典中的下标表示。

图8 句子补长

将所有样本按maxlen补长。

图9 label one-hot化

2.3 模型搭建、训练

搭建BiLSTM-CNN-CRF模型。

图10 模型搭建

模型训练fit。

图11 模型训练

保存模型训练权重，待测试时导入。

图12 保存权重

此时，模型训练完成，开始测试。

图13 导入模型权重

2.4 模型测试

对于测试文本，按标签切分为句子，按句子进行分词，最后再拼接还原。

图14 按句分词

根据原始text和预测label，生成最终分词后的规范结果。

图15 测试句子还原

图16 测试文本

分词结果：

图17 分词结果

从上述结果看，分词模型还算成功。

以下为百度分词（http://ai.baidu.com/tech/nlp/lexical）的结果（中将错误）：

图18 Baidu AI 分词

三、分词接口

效果图如下：

http://127.0.0.1:7777/fenci?type=mine&text=南京市长莅临指导，大家热烈欢迎。公交车中将禁止吃东西！

图19 分词接口效果1

http://127.0.0.1:7777/fenci?type=jieba&text=南京市长莅临指导，大家热烈欢迎。公交车中将禁止吃东西！

图20 分词接口效果2

该部分代码见如下函数：

图21 分词接口实现

四、分词微信工具

微信接口很简单，使用ichat开源包，效果如下：

图22 微信分词效果

samme分词是我老师公司的初级分词算法，暂不公布技术细节（可加微信测试==）。

图22 微信分词效果2

具体代码实现见wechat_search.py。

测试微信二维码

五、END

水平有限，写的较烂，勿喷！

相关文章

基于BiLSTM-CNN-CRF的中文分词（二）
上文传送门：https://www.jianshu.com/p/5fea8f42caa9 Github：https...
基于BiLSTM-CNN-CRF的中文分词（一）
在线演示：http://118.25.42.251:7777/fenci?type=mine&text=南京市长莅...
NLP系列-中文分词（基于统计）
上文已经介绍了基于词典的中文分词，现在让我们来看一下基于统计的中文分词。统计分词：统计分词的主要思想是把每个词...
Lucene中文分词
中文分词算法现在一般分为三类：基于字符串匹配，基于理解，基于统计的分词。基于字符串匹配分词：机械分词算法，这里我...
机器学习学习笔记(1)
1. 分词方法中文分词方法可以分为以下几种：1）基于统计的分词方法基于统计的分词法的基本原理是根据字符串在语...
jieba分词基本使用
jieba “结巴”中文分词：做最好的 Python 中文分词组件算法基于前缀词典实现高效的词图扫描，生成句子...
模块
基于Node.js的中文分词模块node-segment
【Spark学习笔记】ansj词性说明
背景 Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ICTCLAS 中文分词算法，比其他常用的开源...
Mmseg算法
1. Mmseg算法简介 Mmseg是一种基于字符串匹配（亦称基于词典）的中文分词算法。传统的基于词典的分词方案虽...
中文分词器MMSEG4J分词练习
1.MMSeg分词算法原理 MMSeg是Chih-Hao Tsai提出的基于字符串匹配（亦称基于词典）的中文分词算...

网友评论

本文标题：基于BiLSTM-CNN-CRF的中文分词（二）

本文链接：https://www.haomeiwen.com/subject/jksjcftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

人工智能时代（AI）

大数据，机器学习，人工智能

机器学习和人工智能入门

码代码啊～

热点阅读

人工智能时代（AI）

大数据，机器学习，人工智能

机器学习和人工智能入门

码代码啊～

关于我们|服务条款|联系我们|基于BiLSTM-CNN-CRF的中文分词（二）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！