用Python玩转Hadoop

作者: C就要毕业了 | 来源:发表于2017-04-03 20:07 被阅读3316次

    做数据分析最好的语言当然要数Python,虽然Hadoop由JAVA写成,但Python也可以很好地操控他。O’Reilly新书Hadoop with Python就介绍了如何使用Python Hadoop。书里面同时简要介绍了一些Hadoop的基本概念,因此笔记里包含一些关键知识点以及Python操作Hadoop的基本方法。书籍链接,右边填入个人信息就可以免费下载。

    第一章 HDFS

    1.1 简介

    HDFS由两个主要进程:NameNode和DataNode,往往一个HDFS集群由一个专门服务器跑NameNode,上千个机器跑DataNode

    NameNode

    主要存储filenames,file permissions,location of each block of each file。

    Secondary NameNode保存备份以防止NameNode挂掉。

    DataNode

    存储blocks,并且一个挂掉后NameNode会立刻复制其中的信息。

    An HDFS cluster with a replication factor of two; the NameNode contains the mapping of files to blocks, and the DataNodes store the blocks and their replicas

    1.2 命令行HDFS交互

    $ hdfs dfs -ls /
    $ hdfs dfs -mkdir /user/hduser
    $ hdfs dfs -put /home/hduser/input.txt /user/hduser
    $ hdfs dfs -get input.txt /home/hduser
    

    1.3 Snakebite实现Python与HDFS交互

    Snakebite是一个python库,可以通过两种方式实现对HDFS的操作。第一种还是通过命令行,第二种则是通过Python脚本实现。官方文档在这里

    首先安装Snakebite,目前仅支持python2

    $ pip install snakebite
    

    第一种. CLI交互

    首先要做一下配置,一种简便的方法是创建~/.snakebiterc并写入如下信息。
    注意host和port以及namenodes的数量要随实际情况修改。

    {
      "config_version": 2,
      "use_trash": true,
      "namenodes": [
        {"host": "localhost", "port": 9000, "version": 9},
        {"host": "namenode-ha2", "port": 8020, "version": 9}
      ]
    }
    

    然后就可以通过snakebite option来进行操作了。
    相比于hdfs bfs -option省去了-,更加美观方便。

    $ snakebite --help #获取帮助信息
    $ snakebite ls /
    Found 1 items
    drwxr-xr-x   - c          supergroup          0 2017-04-03 15:47 /xueshu
    

    第二种. 程序交互

    程序交互肯定更为实用啦,以后一个python脚本完成配置加运行不再是梦想,立刻来尝试几个基本功能。

    先来看一个ls命令

    from snakebite.client import Client
    
    client = Client('localhost', 9000)
    for x in client.ls(['/']):
        print x
    

    首先通过Client('localhost', 9000)建立起连接。然后每一条操作都是Client类的一个方法,注意为了效率,每个方法返回的都是一个Iterator。所以要完成全部操作,必须写入一个for循环中,同时把返回信息写出。

    另外一些常用操作列在下面,注意每个方法返回的都是Python Iterator:

    client.mkdir(['/foo/bar', '/input'], create_parent=True) # 创建目录
    client.delete(['/foo', '/input'], recurse=True) # 删除文件或目录
    client.copyToLocal(['/input/input.txt'], '/tmp') # 下载文件
    client.text(['/input/input.txt']) # 显示文件
    

    第二章 MapReduce

    2.1 数据流

    第一阶段 Map

    Mapper函数接受Key-Value对的输入并输出Key-Value对。

    第二阶段 Shuffle and Sort

    把Mapper的中间结果移动到Reducer的过程叫做Shuffling。

    Shuffling由一个Partitioner函数完成,Partitioner函数接收Mapper输出的Key以及Reducer的数量,输出对应的Reducer号。

    Shuffling保证了相同Key的数据进入同一个Reducer,默认的Partitioner是hash法映射的。

    在Reducer拿到数据前还要进行Sort。

    第三阶段 Reduce

    Reducer函数接收Iterator形式的数据流,并且将相同Key的数据做运算获得输出。

    Reducer实例

    2.2 Hadoop Streaming

    Hadoop Streaming提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer,从而充分利用Hadoop并行计算框架的优势和能力,来处理大数据。

    工作原理

    对Hadoop而言,Mapper和Reducer都是从标准输入读取并输出到标准输出

    所以Hadoop Streaming就是做:

    1. 从标准输入依次读取文件的每一行
    2. 执行函数
    3. 把标准输出转化成Key-Value对,或者Key-Null对

    Python实例

    这个例子是WordCount的Python版本,分别实现了mapper和reducer,它们都是从stdin读取一行处理一行并将结果输出在stdout

    mapper.py
    #!/usr/bin/env python
    import sys
    
    for line in sys.stdin:
        words = line.split()
        for word in words:
            print '{0}\t{1}'.format(word, 1)
    

    首先,程序第一行指定python路径,用#!/usr/bin/env python可以满足多数需求,这样子可以用./mapper.py直接运行

    mapper函数依次读取stdin的每一行并输出每一个单词和出现次数的Key-Value对,这里Value总是1。

    reducer.py
    #!/usr/bin/env python
    import sys
    
    curr_word = None
    curr_count = 0
    
    for line in sys.stdin:
        word, count = line.split('\t')
        count = int(count)
        if word == curr_word:
            curr_count += count
        else:
            if curr_word:
                print '{0}\t{1}'.format(curr_word, curr_count)
            curr_word = word
            curr_count = count
    
    if curr_word == word:
        print '{0}\t{1}'.format(curr_word, curr_count)
    

    Reducer函数也是从stdin读取每一行,然后把每个单词的出现次数统计出来。注意reducer接收的输入是排好序的!

    为了使文件可以直接执行,即executable,运行这一行

    chmod a+x mapper.py reducer.py
    

    为了测试mapper和reducer的可用性,可以用这行linux命令,具体不多解释了

    echo 'jack be nimble jack be quick' | ./mapper.py| sort -t 1 | ./reducer.py
    

    接下来要做的事情就是交给hadoop完成词频统计吧。在我的系统下命令是这样的,具体实现因人而异。

    实际上我们就是利用了hadoop streaming这样一个jar包,来将mapper和reducer函数指定为某个脚本,只要我们保证mapper和reducer是可以接收标准输入并把结果输出在标准输出的脚本即可,python、shell、R之类的都是无所谓的。注意input和output的文件路径都是指HDFS的路径,要事先将输入文件放入。

    $ hadoop jar \
    $HADOOP_HOME/libexec/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \
     -files mapper.py,reducer.py \
    -mapper mapper.py \
    -reducer reducer.py \
    -input /user/hduser/input.txt \
    -output /user/hduser/output
    

    我们的输入input.txt是这样的

    jack be nimble jack be quick
    quick jack me
    

    在HDFS的/user/hduser/output/part-00000中得到以下输出,可以看到,我们已经成功了。

    be  2
    jack    3
    me  1
    nimble  1
    quick   2
    

    2.3 mrjob实现Python操控Hadoop Streaming

    mrjob是一个Python库,实现了Hadoop的MapReduce操作。它封装了Hadoop streaming,可以让人用全Python的脚本实现Hadoop计算。它甚至可以让人在没有Hadoop环境下完成测试,并允许用户将mapper和reducer写进一个类里。简直是神器!

    安装

    一句话,pip依然那么轻松写意dyis

    $ pip install mrjob
    

    Python代码

    from mrjob.job import MRJob
    
    class MRWordCount(MRJob):
        def mapper(self, _, line):
            for word in line.split():
                yield(word, 1)
    
        def reducer(self, word, counts):
            yield(word, sum(counts))
    
    if __name__ == '__main__':
        MRWordCount.run()
    

    运行

    $ python word_count.py input.txt
    "be"    2
    "jack"  3
    "me"    1
    "nimble"    1
    "quick" 2
    

    就这样好了?我们都不需要配置Hadoop环境吗?答案是不需要,这就是mrjob的强大之处,帮你模拟了Hadoop的MR计算方式。

    详解

    1. mapper很容易理解,不多说。接收key和value并输出key和value的tuple,往往会缺省key。

    2. combiner在这里没有定义,实际上combiner()是运行在mapper和reducer之间的过程。
      书里的定义如下:The combiner’s input is a key, which was yielded by the mapper, and a value, which is a generator that yields all values yielded by one mapper that corresponds to the key. The combiner yields tuples of (output_key, output_value) as output.
      简单说就是combiner把mapper结果中key相同的值组合起来,生成一个generator把它作为该key新的value,并交给reducer去做。

    3. reducer也是接收(key, value),注意这里的value已经是一个Generator了。输出(key, value)。

    更多选项

    -r inline: 默认选项,单线程Python运行
    -r local: 多进程
    -r hadoop: 运行在Hadoop上

    尝试了一下-r hadoop发现有报错,暂时不去管它,至少给了我们一个没有hadoop环境也可以做测试的方法。

    相关文章

      网友评论

      • 金哥数据分析:大神,可以交个朋友吗,我也在学大数据 wx 35816146

        我建了自学者群:829163554 培训勿扰!

      本文标题:用Python玩转Hadoop

      本文链接:https://www.haomeiwen.com/subject/dcpoottx.html