hanlp和jieba等六大中文分工具的测试对比

hanlp和jieba等六大中文分工具的测试对比

作者: 惠洋热熔胶网膜 | 来源:发表于2019-02-25 13:07 被阅读17次

hanlp和jieba等六大中文分工具的测试对比
关键词抽取
【Spark学习笔记】Spark下的四种中文分词工具
Elasticsearch 分词
中文分词利器 jieba 和 HanLP
中文分词
中文NLP工具
分词工具比较及使用(ansj、hanlp、jieba)
自然语言处理工具python调用hanlp中文实体识别
jieba 中文分词教程

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由水...琥珀完成的。相关测试的文章之前也看到过一些，但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友！

安装调用

jieba“结巴”中文分词：做最好的 Python 中文分词组件

THULAC清华大学：一个高效的中文词法分析工具包

FoolNLTK可能不是最快的开源中文分词，但很可能是最准的开源中文分词

教程：FoolNLTK及 HanLP使用

HanLP最高分词速度2,000万字/秒

**中科院 Ictclas 分词系统 - NLPIR汉语分词系统

哈工大LTP

LTP安装教程[python 哈工大NTP分词安装pyltp 及配置模型（新）]

如下是测试代码及结果

下面测试的文本上是极易分词错误的文本，分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下，分词器的宣传语是否得当吧。

jieba中文分词

thulac中文分词

fool中文分词

HanLP中文分词

中科院分词nlpir

哈工大ltp分词

以上可以看出分词的时间，为了方便比较进行如下操作：

分词效果对比

结果为：

总结：

1.时间上（不包括加载包的时间），对于相同的文本测试两次，四个分词器时间分别为：

jieba: 0.01699233055114746 1.8318662643432617

thulac： 10.118737936019897 8.155954599380493

fool： 2.227612018585205 2.892209053039551

HanLP： 3.6987085342407227 1.443108320236206

中科院nlpir：0.002994060516357422

哈工大ltp_：0.09294390678405762

可以看出平均耗时最短的是中科院nlpir分词，最长的是thulac，时间的差异还是比较大的。

2.分词准确率上，通过分词效果操作可以看出

第一句：结婚的和尚未结婚的确实在干扰分词啊

四个分词器都表现良好，唯一不同的是fool将“干扰分词”合为一个词

第二句：汽水不如果汁好喝，重点在“不如果”，“”不如“” 和“”如果“” 在中文中都可以成词，但是在这个句子里是不如与果汁正确分词

jieba thulac fool HanLP

jieba、 fool 、HanLP正确 thulac错误

第三句：小白痴痴地在门前等小黑回来，体现在人名的合理分词上

正确是：

小白/痴痴地/ 在/ 门前/ 等/ 小黑/ 回来

jieba、 fool 、HanLP正确，thulac在两处分词错误：小白_np 痴痴_a 地_u 在_p 门前_s 等_u 小_a 黑回_n 来_f

第四句：是有关司法领域文本分词

发现HanLP的分词粒度比较大，fool分词粒度较小，导致fool分词在上有较大的误差。在人名识别上没有太大的差异，在组织机构名上分词，分词的颗粒度有一些差异，Hanlp在机构名的分词上略胜一筹。

六种分词器使用建议：

对命名实体识别要求较高的可以选择HanLP，根据说明其训练的语料比较多，载入了很多实体库，通过测试在实体边界的识别上有一定的优势。

中科院的分词，是学术界比较权威的，对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难，但比较jieba的安装显得繁琐一点，代码迁移性会相对弱一点。哈工大分词器pyltp安装配置模型教程

结巴因为其安装简单，有三种模式和其他功能，支持语言广泛，流行度比较高，且在操作文件上有比较好的方法好用python -m jieba news.txt > cut_result.txt

对于分词器的其他功能就可以在文章开头的链接查看，比如说哈工大的pyltp在命名实体识别方面，可以输出标注的词向量，是非常方便基础研究的命名实体的标注工作。

精简文本效果对比

相关文章

hanlp和jieba等六大中文分工具的测试对比
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP...
关键词抽取
五种关键词抽取工具 1、jieba GitHub - fxsjy/jieba: 结巴中文分词 2、hanlp G...
【Spark学习笔记】Spark下的四种中文分词工具
1. Spark下四种中文分词工具使用 hanLP ansj jieba fudannlp 2. 获取四种分词工具...
Elasticsearch 分词
中文分词 elasticsearch-analysis-ik jieba Hanlp THULAC 自定义分词
中文分词利器 jieba 和 HanLP
前言从本文开始，我们进入实战部分。首先，我们按照中文自然语言处理流程的第一步获取语料，然后重点进行中文分词的学习...
中文分词
用过的中文分词有jieba，hanlp，word，grid，standford.nlp。从分词原理的直接到间接说...
中文NLP工具
中文NLP工具 1 HanLP HanLP（汉语言处理包）是一款开源的使用Java进行开发的中文自然语言处理工具，...
分词工具比较及使用(ansj、hanlp、jieba)
一、分词工具 ansj、hanlp、jieba 二、优缺点 1. ansj 优点: 提供多种分词方式可直接根据内...
自然语言处理工具python调用hanlp中文实体识别
Hanlp作为一款重要的中文分词工具，在GitHub的用户量已经非常之高，应该可以看得出来大家对于hanlp这款分...
jieba 中文分词教程
姓名：张国帅学号：19021110506 【嵌牛导读】 jieba 中文分词教程【嵌牛鼻子】jieba 中文分...

网友评论

本文标题：hanlp和jieba等六大中文分工具的测试对比

本文链接：https://www.haomeiwen.com/subject/evnwyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|hanlp和jieba等六大中文分工具的测试对比|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！