Python jieba 中文分词基本用法

作者: zestloveheart | 来源:发表于2018-10-11 12:20 被阅读0次

结巴中文分词的用法
python 结巴分词
Python 结巴分词
python jieba分词库使用
jieba分词
Python jieba 中文分词基本用法
结巴中文分词介绍
jieba 分词学习 2018-10-26
jieba分词介绍
jieba分词

安装

自动安装 pip install jieba / pip3 install jieba
手动安装 github/jieba下载源码，将 jieba 目录放于当前目录或者 site-packages 目录
通过 import jieba 引用

分词

api

cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence：待分词字符串
# cut_all：全模式开启
# HMM：使用HMM，会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词，会把keyword都列出来

使用

seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list))

自定义词典

准备词典，

文件名：dict_test.txt
内容：词语 词频（可略） 词性（可略），每个词一行
看维达 10

载入词典 jieba.load_userdict("dict_test.txt")

动态调整

新增词汇 add_word(word, freq=None, tag=None)
删除词汇 del_word(word)
词频调整

suggest_freq(segment, tune=True)
jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
jieba.suggest_freq('台中', True) # 增加合并的概率

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

停用词

python 生成词云图

关键词提取

并行计算

参考文献

github jieba

网友评论

本文标题：Python jieba 中文分词基本用法

本文链接：https://www.haomeiwen.com/subject/lravaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python jieba 中文分词基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

相关文章

结巴中文分词的用法

python 结巴分词

Python 结巴分词

python jieba分词库使用

jieba分词

Python jieba 中文分词基本用法

结巴中文分词介绍

jieba 分词学习 2018-10-26

jieba分词介绍

jieba分词

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python jieba 中文分词 基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python jieba 中文分词基本用法