美文网首页
2018-10-19三国演义词频统计

2018-10-19三国演义词频统计

作者: 叛逆闲人 | 来源:发表于2018-10-19 12:52 被阅读0次

使用jieba分词库相关知识,完成下列两题:

(1)查找出“threekingdoms.txt”文件中出现频率前十位的词汇

import jieba
txt=open("threekingdoms.txt","rb").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items =  list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\15228\AppData\Local\Temp\jieba.cache
Loading model cost 1.518 seconds.
Prefix dict has been built succesfully.
1586
曹操 953
孔明 836
将军 772
却说 656
玄德 586
关公 510
丞相 491
二人 469
不可 440
荆州 425
玄德曰 390
孔明曰 390
不能 383
如此 378

(2)统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数。

import jieba
excludes={"将军","却说","荆州","二人","不可","不能","如此"}
txt=open("threekingdoms.txt","rb").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word =="孔明曰":
        rword="孔明"
    elif word == "关公" or word =="云长":
        rword="关羽"
    elif word == "玄德" or word =="玄德曰":
        rword="刘备"
    elif word == "孟德" or word =="丞相":
        rword="曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del(counts[word])
items =  list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(5):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))
    

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\15228\AppData\Local\Temp\jieba.cache
Loading model cost 0.680 seconds.
Prefix dict has been built succesfully.
1586
曹操 1451
孔明 1383
刘备 1253
关羽 784

相关文章

  • 2018-10-19三国演义词频统计

    使用jieba分词库相关知识,完成下列两题: (1)查找出“threekingdoms.txt”文件中出现频率前十...

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

  • python统计词频

    一、使用re库进行识别 1、代码 2、参考 python--10行代码搞定词频统计python:统计历年英语四六级...

  • bash统计词频

    leetcode题目192.统计词频写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的...

网友评论

      本文标题:2018-10-19三国演义词频统计

      本文链接:https://www.haomeiwen.com/subject/gyyyzftx.html