美文网首页
Python jieba 中文分词 基本用法

Python jieba 中文分词 基本用法

作者: zestloveheart | 来源:发表于2018-10-11 12:20 被阅读0次

安装

  • 自动安装 pip install jieba / pip3 install jieba
  • 手动安装 github/jieba下载源码,将 jieba 目录放于当前目录或者 site-packages 目录
  • 通过 import jieba 引用

分词

  • api
cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence:待分词字符串
# cut_all:全模式开启
# HMM:使用HMM,会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词,会把keyword都列出来
  • 使用
seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list)) 

自定义词典

  • 准备词典,
    文件名:dict_test.txt
    内容:词语 词频(可略) 词性(可略),每个词一行
    看维达 10
    
  • 载入词典 jieba.load_userdict("dict_test.txt")
  • 动态调整
    1. 新增词汇 add_word(word, freq=None, tag=None)
    2. 删除词汇 del_word(word)
    3. 词频调整
    suggest_freq(segment, tune=True)
    jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
    jieba.suggest_freq('台中', True) # 增加合并的概率
    

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

停用词

python 生成词云图

关键词提取

并行计算

参考文献

  1. github jieba

相关文章

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python jieba分词库使用

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • jieba分词

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 安装jieba 简单用法...

  • Python jieba 中文分词 基本用法

    安装 自动安装 pip install jieba / pip3 install jieba 手动安装 githu...

  • 结巴中文分词介绍

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • jieba 分词学习 2018-10-26

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • jieba分词介绍

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • jieba分词

    参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...

网友评论

      本文标题:Python jieba 中文分词 基本用法

      本文链接:https://www.haomeiwen.com/subject/lravaftx.html