美文网首页
词频统计

词频统计

作者: Amica | 来源:发表于2017-12-13 15:43 被阅读22次
需求.png
导入相关包.png
统计单词出现的次数.png
查看结果.png
对结果进行排序获取单词和其对应的次数.png
词频可视化.png
原始文件.png

通过Linux命令实现词频统计

现在有一遍英语文档The_Man_of_Property.txt通过Linux命令实现词频统计

文章的前三行.png
可以清楚的看到文章中包含了各种标点符号以及通过空格分割的单词,现在我们需要将文章的标点符号全部删除,并将剩下的单词进行词频统计输出到文件中
sed 's/[[:punct:]]//g' The_Man_of_Property.txt  | tr ' ' '\n' | sort |uniq -c | sort -k1 -nr >> word_Fre.txt
这里我们应用到了sed编辑器,sed编辑器可以根据命令来处理数据流中的数据,这些命令可以通过命令行输入,也可以存储在一个命令文本文件中。sed编辑器会执行下列操作:
1、一次从输入中读取一行数据
2、根据所提供的编辑器命令匹配数据
3、按照命令修改流中的数据
4、将新的数据输出到STDOUT
上面的命令中通过:
sed 's/[[:punct:]]//g' The_Man_of_Property.txt  (删除掉文章中的标点符号如果想直接修改原文可以在sed后面加上-i这个参数)
tr ' ' '\n' (实现将空格替换为换行符)
sort (对所有的单词进行排序)
uniq -c (将相同单词进行合并并统计出其出现的总次数)
sort -k1 -nr  (按照第一列排序并根据数字倒叙排序)
并将结果存储到word_Fre.txt中

词频统计的前10行.png

相关文章

  • 用Py做文本分析3:制作词云图

    1.词频统计 在词频统计之前,需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...

  • 词频统计

    通过Linux命令实现词频统计 现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...

  • 词频统计

    词频统计 请设计一个高效的方法,找出任意指定单词在一篇文章中的出现频数。 给定一个string数组article和...

  • 辽经干python 元组和字典(2)

    字典 词频统计 词云

  • 统计词频并按词频排序

    一、背景描述 源文件格式需要处理的源文件格式如下:ont:aasd:asdfd:cc 处理任务我们需要统计冒号之后...

  • 开启自学人生

    day6 姓名:邓超 学号:1901010076 学习:封装统计英文词频的函数+封装统计中文词频的函数。 总结:1...

  • python统计词频

    一、最终目的 统计四六级真题中四六级词汇出现的频率,并提取对应的例句,最终保存到SQL数据库中。 二、处理过程 1...

  • python统计词频

    一、使用re库进行识别 1、代码 2、参考 python--10行代码搞定词频统计python:统计历年英语四六级...

  • bash统计词频

    leetcode题目192.统计词频写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的...

  • python 词频统计

    """Count words.""" def count_words(s, n): """Return the...

网友评论

      本文标题:词频统计

      本文链接:https://www.haomeiwen.com/subject/xqtzixtx.html