美文网首页我爱编程程序员
通过简单几行Python语句,统计文本单词词频

通过简单几行Python语句,统计文本单词词频

作者: e7ec0c4573b1 | 来源:发表于2018-12-23 17:18 被阅读14次

    我们常常看到很多英语培训方面的书籍,告诉你考研、雅思、四六级等听力、阅读的高频单词有哪些。他们是怎么做到的呢?

    其实通过Python, 通过简单几行代码就可以实现。

    import re    #导入正则表达式

    from collections import Counter #导入python的统计模块

    txt =open('test.txt', 'r').read().lower() #打开要统计的文本

    def word_count(num):

    word_pattern =r'[a-zA-Z-]+' #正则表达式,搜集文本

    words = re.findall(word_pattern, txt) #查询文本,筛选符合单词特征的,去除不符合的汉字图表等

    return Counter(words).most_comm(num) #返回你向统计的前几名的高频单词,num输入你的想定义的前几名,num = 10,代表统计前十名的高频单词

    很神奇,简单几行代码就实现了统计高频单词。通过延伸应用,还可以统计哪些文字是该文章的核心关键词。

    相关文章

      网友评论

        本文标题:通过简单几行Python语句,统计文本单词词频

        本文链接:https://www.haomeiwen.com/subject/czpnkqtx.html