美文网首页
常用分词工具使用教程

常用分词工具使用教程

作者: 昆布123 | 来源:发表于2020-02-24 22:26 被阅读0次

Python 简单的文本关键词提取 - 简书

常用分词工具使用教程

以下分词工具均能在Python环境中直接调用(排名不分先后)。

jieba(结巴分词) 免费使用

HanLP(汉语言处理包) 免费使用

SnowNLP(中文的类库) 免费使用

FoolNLTK(中文处理工具包) 免费使用

Jiagu(甲骨NLP) 免费使用

pyltp(哈工大语言云) 商用需要付费

THULAC(清华中文词法分析工具包) 商用需要付费

NLPIR(汉语分词系统) 付费使用

jieba(结巴分词)

“结巴”中文分词:做最好的 Python 中文分词组件。

项目Github地址:jieba

安装:

pip install jieba

使用:

importjiebajieba.initialize()text='化妆和服装'words=jieba.cut(text)words=list(words)print(words)

HanLP(汉语言处理包)

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

项目Github地址:pyhanlp

安装:

pip install pyhanlp

使用:

importpyhanlptext='化妆和服装'words=[]forterminpyhanlp.HanLP.segment(text):words.append(term.word)print(words)

SnowNLP(中文的类库)

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

项目Github地址:snownlp

安装:

pip install snownlp

使用:

importsnownlptext='化妆和服装'words=snownlp.SnowNLP(text).wordsprint(words)

FoolNLTK(中文处理工具包)

可能不是最快的开源中文分词,但很可能是最准的开源中文分词。

项目Github地址:FoolNLTK

安装:

pip install foolnltk

使用:

importfooltext='化妆和服装'words=fool.cut(text)print(words)

Jiagu(甲骨NLP)

基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。

项目Github地址:jiagu

安装:

pip3 install jiagu

使用:

importjiagujiagu.init()text='化妆和服装'words=jiagu.seg(text)print(words)

pyltp(哈工大语言云)

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

项目Github地址:pyltp,3.4模型下载链接:网盘

安装:

pip install pyltp

使用:

importpyltpsegmentor=pyltp.Segmentor()segmentor.load('model/ltp_data_v3.4.0/cws.model')#模型放置的路径text='化妆和服装'words=segmentor.segment(text)words=list(words)print(words)

THULAC(清华中文词法分析工具包)

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

项目Github地址:THULAC-Python

安装:

pip install thulac

使用:

importthulacthu=thulac.thulac(seg_only=True)text='化妆和服装'words=thu.cut(text,text=True).split()print(words)

NLPIR(汉语分词系统)

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

项目Github地址:pynlpir

安装:

pip install pynlpir

下载证书覆盖到安装目录,NLPIR.user例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data

使用:

importpynlpirpynlpir.open()text='化妆和服装'words=pynlpir.segment(text,pos_tagging=False)print(words)pynlpir.close()

相关文章

  • 常用分词工具使用教程

    常用分词工具使用教程 以下分词工具均能在Python环境中直接调用(排名不分先后)。 jieba(结巴分词) 免费...

  • 常用分词工具使用教程

    Python 简单的文本关键词提取 - 简书 常用分词工具使用教程 以下分词工具均能在Python环境中直接调用(...

  • 分词系统评测

    1.11款开放中文分词引擎大比拼 2.常用的开源中文分词工具 3.11大Java开源中文分词器的使用方法和分词效果...

  • 分词练习

    1.常用的分词工具包 perminusminusStanford 汉语分词工具哈工大语言云ICTCLAS——Ans...

  • 分词练习

    一、实验目标 尝试使用jieba对《龙族》进行分词,并进行分词效果比较分析 二、使用工具 在线分词工具、jieba...

  • Linux常用工具使用技巧和使用高清视频教程

    Linux常用工具使用技巧和使用高清视频教程,这个专辑主要讲述了Linux常用工具,SSH使用,tmux使用,rs...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • 分词工具包了解及使用实验报告

    实验目的: 了解分词包并进行使用 实验要求: 调查现有的分词工具包,并选择两种使用进行分词效果的比较 实验工具: ...

  • 利用jieba分词,构建词云图

    注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...

  • 分词练习

    使用ICTCLAS(NLPIR)在线分词工具和jieba分词组件进行分词练习。 一. ICTCLAS 1.简介 汉...

网友评论

      本文标题:常用分词工具使用教程

      本文链接:https://www.haomeiwen.com/subject/mjgubftx.html