美文网首页
英文词频统计

英文词频统计

作者: taon | 来源:发表于2020-07-02 22:40 被阅读0次

该案例以莎士比亚的四大悲剧之一《哈姆雷特》为例,来统计该文章中的词语出现的频率。总体的步骤为读入文本,大小写转换,特殊字符转换,分词,词频统计,排序。通过观察词语频率最高的几个词,我们大致可以了解该文章的主要内容。这一小节,我们没有涉及到英文文章中去停用词的操作。

停用词:出现的频率很高,但对文章表达主旨没有太大影响的词。在英文文章中,如:I, and, but, here, there, some之类的词语等。

文档链接:链接:https://pan.baidu.com/s/17ehiYKripA--noIjfFLBbQ
提取码:yuhq

下面是英文词频统计的代码示例:

#导入文本
f = open('./data/hamlet.txt','r')
txt = f.read()
print(txt)

#这里只打印部分内容
# The Tragedy of Hamlet, Prince of Denmark
# Shakespeare homepage | Hamlet | Entire play
# ACT I

# SCENE I. Elsinore. A platform before the castle.

# FRANCISCO at his post. Enter to him BERNARDO

#将文本内容全部转化为小写格式
txt = txt.lower()

#将特殊字符转化为空格
for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
    txt = txt.replace(ch,' ')
    
#以空格为分隔符,取出所有单词
words = txt.split()
print(words)
#['the','tragedy','of','hamlet','prince','of'......]

#查看词语的数量
len(words)
#32259

#查看无重复单词的数量
len(set(words))  #set()函数的功能就是去除序列中的重复元素
#4793

#统计词语的频率
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1
    
#将统计得到的字典counts转换为列表
counts = list(counts.items())
print(counts)
#[('the', 1138),('tragedy', 3),('of', 669),('hamlet', 462),('prince', 10)......]

#对counts列表按照词云频率进行排序
counts.sort(key = lambda x:x[1],reverse = True)

#打印频率最高的前10个词语
for i in range(10):
    print(counts[i][0],counts[i][1])
# the 1138
# and 965
# to 754
# of 669
# you 550
# i 542
# a 542
# my 514
# hamlet 462
# in 436

由于我们没有做去停用词操作,从我们打印的前10个词语中可以看出,the, and, to, of, you等这些对文章主旨影响不大的词的频率最高。这也符合我们的常识,任何一篇文章中出现最多的都是这些词。

相关文章

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • 英文词频统计

    该案例以莎士比亚的四大悲剧之一《哈姆雷特》为例,来统计该文章中的词语出现的频率。总体的步骤为读入文本,大小写转换,...

  • 文本挖掘

    1文本词频分析(中英文各一份)及列表的sort()使用2如何利用python统计英文文章词频3主题模型 LDA 入...

  • 统计英文文章中词频

    import refrom collections import Counterpath='E:\etest.tx...

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • python 中文,英文做词频统计小计

    作为一个爬虫工程师,词频统计还是要有所了解的,对于舆情的文本处理,统计每个词出现的次数,亦或是统计文本出现top1...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

网友评论

      本文标题:英文词频统计

      本文链接:https://www.haomeiwen.com/subject/mcwdqktx.html