美文网首页
Python jieba 中文分词 基本用法

Python jieba 中文分词 基本用法

作者: zestloveheart | 来源:发表于2018-10-11 12:20 被阅读0次

    安装

    • 自动安装 pip install jieba / pip3 install jieba
    • 手动安装 github/jieba下载源码,将 jieba 目录放于当前目录或者 site-packages 目录
    • 通过 import jieba 引用

    分词

    • api
    cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
    # sentence:待分词字符串
    # cut_all:全模式开启
    # HMM:使用HMM,会多发现一些新词
    lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
    cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词,会把keyword都列出来
    
    • 使用
    seg_list = jieba.cut("我在看维达", cut_all=False)
    print(" ".join(seg_list)) 
    

    自定义词典

    • 准备词典,
      文件名:dict_test.txt
      内容:词语 词频(可略) 词性(可略),每个词一行
      看维达 10
      
    • 载入词典 jieba.load_userdict("dict_test.txt")
    • 动态调整
      1. 新增词汇 add_word(word, freq=None, tag=None)
      2. 删除词汇 del_word(word)
      3. 词频调整
      suggest_freq(segment, tune=True)
      jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
      jieba.suggest_freq('台中', True) # 增加合并的概率
      

    词性标注

    import jieba.posseg as pseg
    words = pseg.cut("我在看维达")
    for word, flag in words:
        print(f"{word} {flag}")
    

    停用词

    python 生成词云图

    关键词提取

    并行计算

    参考文献

    1. github jieba

    相关文章

      网友评论

          本文标题:Python jieba 中文分词 基本用法

          本文链接:https://www.haomeiwen.com/subject/lravaftx.html