利用python jieba库对《一年顶十年》词频分析的结果
import jieba
txt = open("一年顶十年.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1: #排除单个字符的分词结果
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(50):
word, count = items[i]
print ("{0:<10}{1:>5}".format(word,count))
自己 303
如果 201
很多 167
我们 163
可以 145
一个 127
社群 122
他们 118
别人 116
时间 101
什么 100
大家 95
非常 88
时候 82
用户 78
一些 77
可能 71
事情 70
更好 70
觉得 70
分享 69
如何 68
比如 68
这样 68
容易 66
特别 63
就是 59
为什么 59
产品 57
需要 56
不要 56
这个 56
成为 54
内容 54
这些 53
没有 53
学习 52
怎么 51
问题 51
团队 51
牛人 50
一定 50
开始 48
价值 48
文章 46
不是 45
愿意 45
帮助 44
哪些 43
还有 43
网友评论