自学Python:统计一篇英文文章中使用频率最高的词组

作者: 小强聊成长 | 来源:发表于2021-07-23 12:24 被阅读0次

自学Python:统计一篇英文文章中使用频率最高的词组
python面试题-2018-01-29
Github上Pandas,Numpy和 Scipy三个库中20
requests库核心API源码分析
大数据带你解读图书馆借阅情况
文本挖掘
Python或将跟Print拜拜？
从粗口聊起
geopandas overlay 函数报错问题解决方案
教你使用 Jacoco 统计服务端代码覆盖率

如果要统计一篇英文文章中，或者一本英文书中出现的词组频率进行统计排序，如果人工做那是不敢想象的工作量。而使用python之需要两行代码就完成主要工作了。

下面演示代码：

def txt():

t = open("D:\hamlet.txt", "r").read() #打开文件

t = t.lower() #把所有的字母都转换成小写

for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~': #去掉标点呼号

t = t.replace(ch, " ") #将文本中特殊字符替换为空格

return t

hamletTxt = txt()

words = hamletTxt.split()

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1 #核心统计代码就上面这两行

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True)

for i in range(10):

word, count = items[i]

print ("{0:<10}{1:>5}".format(word, count))#获取排名前10的名单

执行结果:

the 1138

and 965

to 754

of 669

you 550

i 542

a 542

my 514

hamlet 462

in 436

就是使用这个功能，李笑来出了第一本书畅销书《TOEFL核心词汇21天突破》，也是一本长畅销书，到目前的销量还很好。

________________END______________

网友评论

本文标题：自学Python:统计一篇英文文章中使用频率最高的词组

本文链接：https://www.haomeiwen.com/subject/okblmltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

自学Python:统计一篇英文文章中使用频率最高的词组

相关文章