美文网首页
Hadoop Streaming原理

Hadoop Streaming原理

作者: 可乐加冰丶丶 | 来源:发表于2018-07-06 09:57 被阅读0次
    Streaming简介

    • MapReduce和HDFS采用Java实现,默认提供Java编程接口
    • Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用
    • Streaming方便已有程序向Hadoop平台移植

    Streaming原理
    Streaming优点

    • 开发效率高
    – 方便移植Hadoop平台,只需按照一定的格式从标准输入读取数据、向标准输出写数据就可

    – 原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理
    – 容易单机调试
    cat input | mapper | sort | reducer > output
    • 程序运行效率高
    – 对于CPU密集的计算,有些语言如C/C++编写的程序可能比用Java编写的程序效率更高一些
    • 便于平台进行资源控制
    – Streaming框架中通过limit等方式可以灵活地限制应用程序使用的内存等资源

    Streaming局限

    • Streaming默认只能处理文本数据,如果要对二进制数据进行处理,比较好的方法是将二进 制的key和value进行base64的编码转化成文本即可
    • 两次数据拷贝和解析(分割),带来一定的开销

    案例:

    – 指定计算白名单内单词的wordcount

    run.sh
    $HADOOP_CMD jar $STREAM_JAR_PATH \
        -input $INPUT_FILE_PATH_1 \    //指定作业的输入文件的HDFS路径,支持使用*通配 符,支持指定多个文件或目录,可多次使用
        -output $OUTPUT_PATH \    //指定作业的输出文件的HDFS路径,路径必须不存在,并且具备执行作用用户有创建目录的权限,只能使用一次
        -mapper "python map.py mapper_func white_list" \    //用户自己写的mapper程序
        -reducer "python red.py reduer_func" \    //用户自己写的reducer程序
        -jobconf "mapred.reduce.tasks=3" \      //提交作业的一些配置属性
        -file ./map.py \    //打包文件到提交的作业中, (1)map和reduce的执行文件 (2)map和reduce要用输入的文件,如配置文件类似的配置还有-cacheFile, -cacheArchive分别用于 -reducer “python reducer.py” 向计算节点分发HDFS文件和HDFS压缩文件
        -file ./red.py \    
        -file ./white_list    
    
    jobconf的常见配置

    mapred.map.tasks:map task数目
    mapred.reduce.tasks:reduce task数目
    stream.num.map.output.key.fields 指定map task输出记录中key所占的域数目
    num.key.fields.for.partition 指定对key分出来的前几部分做partition而不是整个key
    mapred.job.name 作业名
    mapred.job.priority 作业优先级
    mapred.job.map.capacity 最多同时运行map任务数
    mapred.job.reduce.capacity 最多同时运行reduce任务数
    mapred.task.timeout 任务没有响应(输入输出)的最大时间
    mapred.compress.map.output map的输出是否压缩
    mapred.map.output.compression.codec map的输出压缩方式
    mapred.output.compress map的输出是否压缩
    mapred.output.compression.codec reduce的输出是否压缩
    stream.map.output.field.separator reduce的输出压缩方式

    实例一、文件分发与打包

    • 如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。 Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作 业时配置相应的参数。
    • 如果要分发的文件在本地且没有目录结构,可以使用-file /path/to/FILENAME选项 分发文件,将本地文件 /path/to/FILENAME分发到每个计算节点。
    • 在Streaming程序中通过./FILENAME就可以访问该文件
    • 对于本地可执行的文件,除了指定的mapper或reducer程序外,可能分发后没有可 执行权限,所以需要在包装程序如mapper.sh中运行chmod +x ./FILENAME设置 可执行权限,然后设置-mapper “mapper.sh”。
    • 顺便注意下 ./mapred/local/taskTracker/root/jobcache/job_201704060437_xxxx这个目录

    • 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将 文件当作本地文件处理,可以使用-cacheFile hdfs: //host:port/path /to/file#linkname选项在计算节点缓存文件, Streaming程序通过./linkname访问文件。

    • 如果要分发的文件有目录结构,可以先将整个目录打包,然后上传到HDFS ,再用-cacheArchive hdfs: //host:port/path/to/ archivefile#linkname分 发压缩包。

    相关文章

      网友评论

          本文标题:Hadoop Streaming原理

          本文链接:https://www.haomeiwen.com/subject/cbohyftx.html