美文网首页
目前知道的几个汉语分词工具

目前知道的几个汉语分词工具

作者: 曦宝 | 来源:发表于2018-10-30 14:35 被阅读2次

1、结巴分词

https://pypi.org/project/jieba/
是我之前工程上用的分词工具,因为之前工程紧急,所以当时只知道这个,现在闲下来一些时间,才有时间了解更多分词工具。
python语言,个人觉得用户使用度上比较方便,容易理解。分词效果也比较好,加停词表,加字典也比较容易。可以过滤词性、统计词频(tf-idf),功能完整,效果不错,用起来简单。

2、HanLP

http://hanlp.linrunsoft.com/
全称Han Language Processing
我没用过,不知道效果。
Java语言,看过官网的示例,觉得是因为语言的关系,所以导致用起来会比较麻烦(或者说,看起来要写更多的语句,这样比较准确)。
有时间了可以写一个简单的小demo试一下

3、pynlpir分词

中科院计算所
python语言
https://github.com/NLPIR-team/NLPIR

image.png
今天大概学习了一下,找了网上的几个容易产生歧义的几个测试语句。
感觉没有结巴分词效果好。
image.png
image.png
这是一个代表,我在网上找到的一些容易歧义的测试语句,结巴总体效果比pynlpir分词效果好多了

4、snownlp

python语言
直接用pip安装,比较简单
下面看一下测试用例下,几种分词方式的表现。
还是结巴最好。


image.png

5、ansj分词器

Java语言
https://github.com/NLPchina/ansj_seg

6、LTP

哈工大
有Java也有python
需要Visual C++


image.png

7、thulac分词

清华大学
python语言,Java语言也有


image.png

这个效果还是不如结巴。

8、还有一些分词的算法,参照下面的博客

https://blog.csdn.net/m0_37710823/article/details/76064408

9、补充一个

老公一直让我看N-Gram算法,烦人不,这个是按照字数分词,所以不能单独作为分词存在,只能用作计算词频或者相似度的辅助。
行了吧,真烦人。

10、再来更新一波(pkuseg-python)

https://github.com/lancopku/PKUSeg-python
上面是GitHub的网址
北京大学
python语言

image.png
下面是机器之心对pkuseg的简介
https://www.jiqizhixin.com/articles/2019-01-09-12
image.png
下面是安装方法,真的超级人性化,好安装。

相关文章

  • 目前知道的几个汉语分词工具

    1、结巴分词 https://pypi.org/project/jieba/是我之前工程上用的分词工具,因为之前工...

  • 分词练习1——分词工具包

    关于分词工具包的体验:分词练习2——分词体验 现有的分词工具包 (1)NLPIR NLPIR汉语分词系统,又名IC...

  • 分词练习

    1.常用的分词工具包 perminusminusStanford 汉语分词工具哈工大语言云ICTCLAS——Ans...

  • jieba 源码解析

    阅读动机 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细...

  • Python中的jieba 源码解析

    前言 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对...

  • Jieba&IK Analyzer——分词工具的比较与使用

    现有的分词工具包概览 现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣...

  • 汉语分词

    什么是汉语分词 所谓分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 在英文的行文中,单词之间是以空格...

  • NLPIR分词Java接口(一):license问题和简单使用

    关于NLPIR分词 官方简介:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注...

  • 自然语言处理——7.3 汉语自动分词概要

    汉语自动分词的重要性 自动分词是汉语句子分析的基础 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)...

  • 《全唐诗》文本分析

    文本预处理 对于现代汉语的分词,开源/免费的解决方案或工具很多,开源的解决方案如Jieba、HanLp、Stanf...

网友评论

      本文标题:目前知道的几个汉语分词工具

      本文链接:https://www.haomeiwen.com/subject/ajrgtqtx.html