笔记6：词频统计

笔记6：词频统计

作者: Think4doing | 来源:发表于2016-12-28 22:44 被阅读57次

笔记6：词频统计
开启自学人生
用Py做文本分析3：制作词云图
Python学习笔记-3群18组-杜杜狼-2017.8.2
词频统计
词频统计
辽经干python 元组和字典（2）
统计词频并按词频排序
wangyanhua--pythonday02
python统计词频

import string

path = r'F:\5-学习\python学习\20160923\Walden.txt'

with open(path,'r',encoding= 'utf-8') as text:

words = [word.strip(string.punctuation).lower() for word in text.read().split()] #列表解析式从字符串中去掉特殊字符

print(string.punctuation) #ASCII中所有的特殊字符

# print(words,'\n')

words_index = set(words) #去掉重复的单词

counts_dict = {index:words.count(index) for index in words_index} #字典解析式统计重复的单词使用count()方法

# print(counts_dict,'\n')

for word in sorted(counts_dict, key=lambda x:counts_dict[x],reverse=True): #对统计次数逆向进行排序

print('{}-{} times'.format(word,counts_dict[word]))

总结：

整体思路：

1、对文档中的单词分割保存在列表中

2、对列表中的单词中的特殊字符去除

3、使用set集合，去除重复的单词

4、从处理后的单词集合中取出单词，然后使用count方法统计单词个数

5、最终对统计后的单词次数排序

小知识：

string.punctuation # ASCII中所有的特殊字符

strip(string.punctuation) #在字符串头尾中含有特殊字符的去掉

words.count(index) #words中包含有index字符的次数

key=lambda x:counts_dict[x] #函数表达式，怎么用还不清楚

相关文章

笔记6：词频统计
import string path = r'F:\5-学习\python学习\20160923\Walden.t...
开启自学人生
day6 姓名：邓超学号：1901010076 学习：封装统计英文词频的函数+封装统计中文词频的函数。总结：1...
用Py做文本分析3：制作词云图
1.词频统计在词频统计之前，需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...
Python学习笔记-3群18组-杜杜狼-2017.8.2
Lesson 6 词频统计 - 中文分词中文分词（Chinese Word Segmentation）：将一个汉...
词频统计
通过Linux命令实现词频统计现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...
词频统计
词频统计请设计一个高效的方法，找出任意指定单词在一篇文章中的出现频数。给定一个string数组article和...
辽经干python 元组和字典（2）
字典词频统计词云
统计词频并按词频排序
一、背景描述源文件格式需要处理的源文件格式如下：ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...
wangyanhua--pythonday02
Python数据类型常见的6种字符串和数字列表和元组字典集合词频统计排序
python统计词频
一、最终目的统计四六级真题中四六级词汇出现的频率，并提取对应的例句，最终保存到SQL数据库中。二、处理过程 1...

网友评论

本文标题：笔记6：词频统计

本文链接：https://www.haomeiwen.com/subject/bokuvttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|笔记6：词频统计|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！