美文网首页自学编程Python日更成长营
自学Python:统计一篇英文文章中使用频率最高的词组

自学Python:统计一篇英文文章中使用频率最高的词组

作者: 小强聊成长 | 来源:发表于2021-07-23 12:24 被阅读0次

    如果要统计一篇英文文章中,或者一本英文书中出现的词组频率进行统计排序,如果人工做那是不敢想象的工作量。而使用python之需要两行代码就完成主要工作了。

    下面演示代码:

    def txt():

        t = open("D:\hamlet.txt", "r").read() #打开文件

        t = t.lower() #把所有的字母都转换成小写

        for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~': #去掉标点呼号

            t = t.replace(ch, " ")  #将文本中特殊字符替换为空格

        return t

    hamletTxt = txt()

    words  = hamletTxt.split()

    counts = {}

    for word in words:

        counts[word] = counts.get(word,0) + 1 #核心统计代码就上面这两行

    items = list(counts.items())

    items.sort(key=lambda x:x[1], reverse=True)

    for i in range(10):

        word, count = items[i]

        print ("{0:<10}{1:>5}".format(word, count))#获取排名前10的名单

    执行结果:

    the 1138

    and        965

    to          754

    of          669

    you        550

    i          542

    a          542

    my          514

    hamlet      462

    in          436

    就是使用这个功能,李笑来出了第一本书畅销书《TOEFL核心词汇21天突破》,也是一本长畅销书,到目前的销量还很好。

    ________________END______________

    相关文章

      网友评论

        本文标题:自学Python:统计一篇英文文章中使用频率最高的词组

        本文链接:https://www.haomeiwen.com/subject/okblmltx.html