美文网首页
利用python分析《爱丽丝漫游仙境》词频

利用python分析《爱丽丝漫游仙境》词频

作者: Shinichi新一君 | 来源:发表于2017-02-23 23:20 被阅读47次

需要解决的问题:

1.去掉标点,英文是英文著作,因此对形如「Damon's」还要对「'」作替换成空格处理,防止影响结果

2.将列表中的大小写统一(时态、单复数暂时不考虑)

3.还需要一个去重的列表

下面是1st_version代码

file_name = "Alice's Adventures in Wonderland.txt" #这里求方便,我们把文档和.py放在同一目录下

with open(file_name) as f_obj:

    contents = f_obj.read()

    words = contents.replace("'"," ") #首先将「'」替换成空格


import re #利用正则表达式去掉文中的标点

r='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]' #注意这里的格式是'[要去除的内容]'

clean_words = re.sub(r,'',words)


split_words =  clean_words.split() #将文中单词划分开,形成原始的词汇表


complete_words = [] #建立一个空的列表

for word in split_words: 

    lowercase_word = word.lower() #将列表中的元素利用遍历统一格式

    complete_words.append(lowercase_word) #这里是把统一化的词汇放在新的列表中


unique_words = list(set(complete_words)) #这里是去重之后的列表

frequencies = {} #设立新的字典

for word in unique_words:

    frequency = complete_words.count(word)

    frequencies[word] = frequency

print(frequencies) 


相关文章

  • 利用python分析《爱丽丝漫游仙境》词频

    需要解决的问题: 1.去掉标点,英文是英文著作,因此对形如「Damon's」还要对「'」作替换成空格处理,防止影响...

  • 《爱丽丝漫游仙境》

    本书是英国作家,刘易斯·卡罗尔,出生于牧师之家,从小天赋异禀,是一位学霸级人物。 主人公爱丽丝,也确有其人。她是当...

  • 随记202

    有迟了! 1.观影《爱丽丝漫游仙境》 上次在图书馆,涵借了《爱丽丝漫游仙境》,这两天我抽空给她读了两章。她回忆说在...

  • 恩惠心理说-爱丽丝综合症

    早起阅读/写作 77/365 “爱丽丝综合症”, 全称是爱丽丝漫游仙境综合症。爱丽丝综合症多发于儿童时期。其...

  • 《爱丽丝漫游奇境》读书笔记

    2019年8月1日 宗辰 读《爱丽丝漫游仙境》一~四章 我觉得爱丽丝找到一块能把自己...

  • 【冬之雪】世界经典童话寓言故事连载——爱丽丝漫游仙境

    爱丽丝漫游仙境 爱丽丝坐在花园里。突然一只兔子边跑边说:“糟糕,我要迟到了。”爱丽丝好奇地跟着兔子跑,见到兔子跳进...

  • 寻找人生目标

    《爱丽丝漫游仙境》里, “请你告诉我,离开这里应该走哪条路?”爱丽丝问。 “这要看你想上哪儿去。”猫说。 “去哪里...

  • 朱浩然读《爱丽丝漫游奇境》

    朱浩然 8月1日读书打卡《爱丽丝漫游仙境》 爱丽丝遇到了会说话的兔子,爱丽丝居然跟着他,如果是我,我一把把它抓住,...

  • 30/52《爱丽丝漫游仙境》

    这本书我看完之后还是意犹未尽,现在这些情节还像书中的那只郡猫一样在脑海里时隐时现,真的是很好看的一本书。 现在我又...

  • 观《爱丽丝漫游仙境》有感

    最近看了《爱丽丝漫游仙境》,与记忆里的童话故事有所差距,但更让人受益匪浅。 ...

网友评论

      本文标题:利用python分析《爱丽丝漫游仙境》词频

      本文链接:https://www.haomeiwen.com/subject/zzliwttx.html