美文网首页
jieba简单应用

jieba简单应用

作者: 她即我命 | 来源:发表于2018-11-16 20:24 被阅读1次

    统计排序一篇文章中出现的词

    import jieba
    from collections import Counter
    
    # 打开文件
    # 先准备好一篇文章,保存为.txt文件,复制文件路径,绝对路径记得加转义符‘\’。
    with open('C:\\Program Files\\Notepad++\\words.txt', 'r', encoding='utf8') as f:
        word = f.read()
        f.close()
        
    # 把整个文本根据分词表切出来
    cut = jieba.cut(word)
    l = list(cut)
    # print(l)
    num = []
    for i in l:
        # 过滤掉一些无关紧要的语气词以及标点符号并且词的长度必须大于2
        if i not in [' ',',','。','!','?','吗','啊','哦','嗯',':','“','…','的','了','”','\u3000','\n'] and len(i)>1 :
            num.append(i)
            # 统计相同词出现的次数并且降序排序
            c = Counter(num).most_common(100)
    
    print(c)
    
    运行结果

    相关文章

      网友评论

          本文标题:jieba简单应用

          本文链接:https://www.haomeiwen.com/subject/yvkvfqtx.html