用Python玩转Hadoop

作者: C就要毕业了 | 来源:发表于2017-04-03 20:07 被阅读3316次

用Python玩转Hadoop
1 python基础
python 三方库
第一章走进python
（转）selenium2入门实例
readme.md
python一些有趣的库（摘自微信公众号）
用Python玩转股票
用Python玩转LLDB
第二章 python面面观

做数据分析最好的语言当然要数Python，虽然Hadoop由JAVA写成，但Python也可以很好地操控他。O’Reilly新书Hadoop with Python就介绍了如何使用Python Hadoop。书里面同时简要介绍了一些Hadoop的基本概念，因此笔记里包含一些关键知识点以及Python操作Hadoop的基本方法。书籍链接，右边填入个人信息就可以免费下载。

第一章 HDFS

1.1 简介

HDFS由两个主要进程：NameNode和DataNode，往往一个HDFS集群由一个专门服务器跑NameNode，上千个机器跑DataNode

NameNode

主要存储filenames，file permissions，location of each block of each file。

Secondary NameNode保存备份以防止NameNode挂掉。

DataNode

存储blocks，并且一个挂掉后NameNode会立刻复制其中的信息。

An HDFS cluster with a replication factor of two; the NameNode contains the mapping of files to blocks, and the DataNodes store the blocks and their replicas

1.2 命令行HDFS交互

$ hdfs dfs -ls /
$ hdfs dfs -mkdir /user/hduser
$ hdfs dfs -put /home/hduser/input.txt /user/hduser
$ hdfs dfs -get input.txt /home/hduser

1.3 Snakebite实现Python与HDFS交互

Snakebite是一个python库，可以通过两种方式实现对HDFS的操作。第一种还是通过命令行，第二种则是通过Python脚本实现。官方文档在这里。

首先安装Snakebite，目前仅支持python2

$ pip install snakebite

第一种. CLI交互

首先要做一下配置，一种简便的方法是创建~/.snakebiterc并写入如下信息。
注意host和port以及namenodes的数量要随实际情况修改。

{
  "config_version": 2,
  "use_trash": true,
  "namenodes": [
    {"host": "localhost", "port": 9000, "version": 9},
    {"host": "namenode-ha2", "port": 8020, "version": 9}
  ]
}

然后就可以通过snakebite option来进行操作了。
相比于hdfs bfs -option省去了-，更加美观方便。

$ snakebite --help #获取帮助信息
$ snakebite ls /
Found 1 items
drwxr-xr-x   - c          supergroup          0 2017-04-03 15:47 /xueshu

第二种. 程序交互

程序交互肯定更为实用啦，以后一个python脚本完成配置加运行不再是梦想，立刻来尝试几个基本功能。

先来看一个ls命令

from snakebite.client import Client

client = Client('localhost', 9000)
for x in client.ls(['/']):
    print x

首先通过Client('localhost', 9000)建立起连接。然后每一条操作都是Client类的一个方法，注意为了效率，每个方法返回的都是一个Iterator。所以要完成全部操作，必须写入一个for循环中，同时把返回信息写出。

另外一些常用操作列在下面，注意每个方法返回的都是Python Iterator：

client.mkdir(['/foo/bar', '/input'], create_parent=True) # 创建目录
client.delete(['/foo', '/input'], recurse=True) # 删除文件或目录
client.copyToLocal(['/input/input.txt'], '/tmp') # 下载文件
client.text(['/input/input.txt']) # 显示文件

第二章 MapReduce

2.1 数据流

第一阶段 Map

Mapper函数接受Key-Value对的输入并输出Key-Value对。

第二阶段 Shuffle and Sort

把Mapper的中间结果移动到Reducer的过程叫做Shuffling。

Shuffling由一个Partitioner函数完成，Partitioner函数接收Mapper输出的Key以及Reducer的数量，输出对应的Reducer号。

Shuffling保证了相同Key的数据进入同一个Reducer，默认的Partitioner是hash法映射的。

在Reducer拿到数据前还要进行Sort。

第三阶段 Reduce

Reducer函数接收Iterator形式的数据流，并且将相同Key的数据做运算获得输出。

Reducer实例

2.2 Hadoop Streaming

Hadoop Streaming提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer，从而充分利用Hadoop并行计算框架的优势和能力，来处理大数据。

工作原理

对Hadoop而言，Mapper和Reducer都是从标准输入读取并输出到标准输出

所以Hadoop Streaming就是做：

从标准输入依次读取文件的每一行
执行函数
把标准输出转化成Key-Value对，或者Key-Null对

Python实例

这个例子是WordCount的Python版本，分别实现了mapper和reducer，它们都是从stdin读取一行处理一行并将结果输出在stdout

mapper.py
#!/usr/bin/env python
import sys

for line in sys.stdin:
    words = line.split()
    for word in words:
        print '{0}\t{1}'.format(word, 1)

首先，程序第一行指定python路径，用#!/usr/bin/env python可以满足多数需求，这样子可以用./mapper.py直接运行

mapper函数依次读取stdin的每一行并输出每一个单词和出现次数的Key-Value对，这里Value总是1。

reducer.py
#!/usr/bin/env python
import sys

curr_word = None
curr_count = 0

for line in sys.stdin:
    word, count = line.split('\t')
    count = int(count)
    if word == curr_word:
        curr_count += count
    else:
        if curr_word:
            print '{0}\t{1}'.format(curr_word, curr_count)
        curr_word = word
        curr_count = count

if curr_word == word:
    print '{0}\t{1}'.format(curr_word, curr_count)

Reducer函数也是从stdin读取每一行，然后把每个单词的出现次数统计出来。注意reducer接收的输入是排好序的！

为了使文件可以直接执行，即executable，运行这一行

chmod a+x mapper.py reducer.py

为了测试mapper和reducer的可用性，可以用这行linux命令，具体不多解释了

echo 'jack be nimble jack be quick' | ./mapper.py| sort -t 1 | ./reducer.py

接下来要做的事情就是交给hadoop完成词频统计吧。在我的系统下命令是这样的，具体实现因人而异。

实际上我们就是利用了hadoop streaming这样一个jar包，来将mapper和reducer函数指定为某个脚本，只要我们保证mapper和reducer是可以接收标准输入并把结果输出在标准输出的脚本即可，python、shell、R之类的都是无所谓的。注意input和output的文件路径都是指HDFS的路径，要事先将输入文件放入。

$ hadoop jar \
$HADOOP_HOME/libexec/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \
 -files mapper.py,reducer.py \
-mapper mapper.py \
-reducer reducer.py \
-input /user/hduser/input.txt \
-output /user/hduser/output

我们的输入input.txt是这样的

jack be nimble jack be quick
quick jack me

在HDFS的/user/hduser/output/part-00000中得到以下输出，可以看到，我们已经成功了。

be  2
jack    3
me  1
nimble  1
quick   2

2.3 mrjob实现Python操控Hadoop Streaming

mrjob是一个Python库，实现了Hadoop的MapReduce操作。它封装了Hadoop streaming，可以让人用全Python的脚本实现Hadoop计算。它甚至可以让人在没有Hadoop环境下完成测试，并允许用户将mapper和reducer写进一个类里。简直是神器！

安装

一句话，pip依然那么轻松写意dyis

$ pip install mrjob

Python代码

from mrjob.job import MRJob

class MRWordCount(MRJob):
    def mapper(self, _, line):
        for word in line.split():
            yield(word, 1)

    def reducer(self, word, counts):
        yield(word, sum(counts))

if __name__ == '__main__':
    MRWordCount.run()

运行

$ python word_count.py input.txt
"be"    2
"jack"  3
"me"    1
"nimble"    1
"quick" 2

就这样好了？我们都不需要配置Hadoop环境吗？答案是不需要，这就是mrjob的强大之处，帮你模拟了Hadoop的MR计算方式。

详解

mapper很容易理解，不多说。接收key和value并输出key和value的tuple，往往会缺省key。
combiner在这里没有定义，实际上combiner()是运行在mapper和reducer之间的过程。
书里的定义如下：The combiner’s input is a key, which was yielded by the mapper, and a value, which is a generator that yields all values yielded by one mapper that corresponds to the key. The combiner yields tuples of (output_key, output_value) as output.
简单说就是combiner把mapper结果中key相同的值组合起来，生成一个generator把它作为该key新的value，并交给reducer去做。
reducer也是接收(key, value)，注意这里的value已经是一个Generator了。输出(key, value)。