一、背景描述
- 源文件格式
需要处理的源文件格式如下:ont:a asd:a sdfd:cc
- 处理任务
我们需要统计冒号之后的字段出现的频率,并以频率排序输出,比如上面的例子对应的输出是:aa cc
二、技术实现
- shell脚本实现
主要思路是先用awk将需要的字段分离出来,然后写一个shell脚本利用字典用来统计单词出现的个数,最后利用linux命令sort及其-k选项来进行排序。
下面是统计单词出现次数的脚本wordcount.sh:
在命令行运行以下命令:#! /bin/sh declare -A dict while read word do if [ ! -n dict[${word}] ];then dict[${word}]=1 else ((dict[${word}]++)) fi done for key in $(echo ${!dict[*]}) do echo -e "$key\t\t${dict[$key]}" done
#sort -r 表示逆序排序 [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r a 2 cc 1 [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r | cut -f1 a cc
- wordcount.py替换wordcount.sh
其实主要也就是Python版本的wordcount.py:
运行如下命令:#! /usr/local/bin/python3.6 import sys # maps words to their counts word2count = {} # input comes from STDIN (standard input) for line in sys.stdin: #print(line) passwd = line.strip() if passwd not in word2count: word2count[passwd] = 1 else: word2count[passwd] += 1 for key in word2count: print(key + "\t" + str(word2count[key]))
[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.py | sort -k 2 -r | cut -f1 a cc
- 全程Python
在2中,我们结合了shell命令和python脚本,主要利用了shell来分割字段和排序,其实这两个功能也可以由python来实现。
- Python字典排序
在程序中使用字典进行数据信息统计时,由于字典是无序的所以打印字典时内容也是无序的。因此,为了使统计得到的结果更方便查看需要进行排序。Python中字典的排序分为按“键”排序和按“值”排序。
可以使用内置的sorted()函数:
(1)iterable:是可迭代类型类型;sorted(iterable[, cmp[, key[, reverse]]])
(2)cmp:用于比较的函数,比较什么由key决定,有默认值,迭代集合中的一项;
(3)key:用列表元素的某个属性和函数进行作为关键字,有默认值,迭代集合中的一项;
(4)reverse:排序规则. reverse = True 或者 reverse = False,有默认值,默认为升序排列(False)。
返回值:是一个经过排序的可迭代类型,与iterable一样。一般来说,cmp和key可以使用lambda表达式。
如果对字典进行排序,常用的形式如下:sorted(dict.items(), key=lambda e:e[1], reverse=True), 其中e表示dict.items()中的一个元素,e[1]则表示按 值排序如果把e[1]改成e[0],那么则是按键排序,reverse=False可以省略,默认为升序排列。
说明:字典的items()函数返回的是一个列表,列表的每个元素是一个键和值组成的元组。因此,sorted(dict.items(), key=lambda e:e[1], reverse=True)返回的值同样是由元组组成的列表。 - 实现代码
#! /usr/local/bin/python3.6 import sys # maps words to their counts word2count = {} # input comes from STDIN (standard input) for line in sys.stdin: no,passwd = line.strip().split(":") if passwd not in word2count: word2count[passwd] = 1 else: word2count[passwd] += 1 res=sorted(word2count.items(),key=lambda e:e[1],reverse=True) for item in res: print(item[0])
- 运行结果
[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | ./wordcount.py a cc
三、大数据思维
当然,这个问题也可以使用hadoop的mapreduce来解决。和wordcount经典程序差不多,只是reducer最后需要一个排序过程。
- mapper.sh
#! /bin/sh while read line do word=$(echo $line | awk -F ":" '{print $2}') #这里没有必要输出count,因为streaming好像并不会形成key-list echo -e "$word" done
- reducer.sh
#! /bin/sh declare -A dict while read word do if [ -n dict[${word}] ];then ((dict[${word}]++)) else dict[${word}]=1 fi done for key in $(echo ${!dict[*]}) do echo -e "${dict[$key]}\t${key}" >> t done #排序 cat t | sort -k 1 -n
- 运行结果
[hadoop@master workspace]$ hadoop jar ../hadoop-2.7.3/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -D mapreduce.job.reduces=1 -input input -output output3 -mapper mapper.sh -reducer reducer.sh -file mapper.sh -file reducer.sh ... [hadoop@master workspace]$ hdfs dfs -cat output3/part-00000 1 001462 1 0016796001 1 010920 1 0114641641 4 btmu 4 btmuc 4 tgss 6 goodjob 7 yrz1001 8 123812
网友评论