美文网首页
笔记6:词频统计

笔记6:词频统计

作者: Think4doing | 来源:发表于2016-12-28 22:44 被阅读57次

import string

path = r'F:\5-学习\python学习\20160923\Walden.txt'

with open(path,'r',encoding= 'utf-8') as text:

words = [word.strip(string.punctuation).lower() for word in text.read().split()]  #列表解析式 从字符串中去掉特殊字符

print(string.punctuation)  #ASCII中所有的特殊字符

#    print(words,'\n')

words_index = set(words)  #去掉重复的单词

counts_dict = {index:words.count(index) for index in words_index}  #字典解析式 统计重复的单词 使用count()方法

#  print(counts_dict,'\n')

for word in sorted(counts_dict, key=lambda x:counts_dict[x],reverse=True):  #对统计次数逆向进行排序

print('{}-{} times'.format(word,counts_dict[word]))


总结:

整体思路:

1、对文档中的单词分割保存在列表中

2、对列表中的单词中的特殊字符去除

3、使用set集合,去除重复的单词

4、从处理后的单词集合中取出单词,然后使用count方法统计单词个数

5、最终对统计后的单词次数排序

小知识:

string.punctuation  # ASCII中所有的特殊字符

strip(string.punctuation)  #在字符串头尾中含有特殊字符的去掉

words.count(index)    #words中包含有index字符的次数

key=lambda x:counts_dict[x]  #函数表达式,怎么用还不清楚

相关文章

  • 笔记6:词频统计

    import string path = r'F:\5-学习\python学习\20160923\Walden.t...

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • Python学习笔记-3群18组-杜杜狼-2017.8.2

    Lesson 6 词频统计 - 中文分词 中文分词(Chinese Word Segmentation):将一个汉...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

  • wangyanhua--pythonday02

    Python数据类型 常见的6种 字符串和数字 列表和元组 字典集合 词频统计 排序

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

网友评论

      本文标题:笔记6:词频统计

      本文链接:https://www.haomeiwen.com/subject/bokuvttx.html