美文网首页我爱编程互联网&大数据应用学习大数据
Tip:Hadoop+Idea(本地测试+远程调试)

Tip:Hadoop+Idea(本地测试+远程调试)

作者: playwolf719 | 来源:发表于2016-12-25 22:59 被阅读0次

    MapReduce调试常见情况


    Idea是一款很赞的IDE,结合Hadoop可以做本地测试+远程调试。
    首先,我们知道针对MapReduce有以下2种情况。

    1. 使用本地Hadoop执行任务,前提是数据量要小,否则,速度会很慢。
    2. 使用服务器上的Hadoop集群执行任务,但因为调试阶段,不知道代码逻辑是否ok,故不确定长时间跑出来的结果是否符合要求。

    我的调试方法


    根据以上两种情况,我的方法是

    1. 首先,在编写MapReduce阶段,使用少量的数据样本做输入,用本地Hadoop快速跑任务,以此检验MapReduce的逻辑是否正确。
    2. 其次,检验成功后,生成jar包,提交到Hadoop集群,使用中小数据再次进行验证,最后使用于生产环境。

    步骤1很好操作,本地安装好Idea和Hadoop,指定输入即可。
    步骤2如果按照从上传到执行,一路手动操作,会有一系列重复的工作,很是麻烦。这里推荐借助maven的verify方法,使该过程自动化执行。参考做法

    首先编写两个shell文件。
    deplay.sh

    #!/bin/sh
    echo "deploy jar"
    scp ../target/test-1.0-SNAPSHOT.jar hadoop@121.42.36.80:~/test/
    echo "deploy run.sh"
    scp run.sh hadoop@xxx.xxx.xxx.80:~/test/
    echo "start run.sh"
    ssh hadoop@xxx.xxx.xxx.80 "~/test/run.sh"
    

    run.sh

    echo "run hadoop task"
    /usr/local/hadoop/hadoop-2.7.3/bin/hadoop jar /home/hadoop/test/test-1.0-SNAPSHOT.jar WordCount   /input/*  /output/
    

    然后修改pom.xml

    <?xml version="1.0" encoding="UTF-8"?>
    <project xmlns="http://maven.apache.org/POM/4.0.0"
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
    
        <groupId>com</groupId>
        <artifactId>test</artifactId>
        <version>1.0-SNAPSHOT</version>
    
        <dependencies>
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-common</artifactId>
                <version>2.7.3</version>
            </dependency>
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-hdfs</artifactId>
                <version>2.7.3</version>
            </dependency>
    
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-mapreduce-client-core</artifactId>
                <version>2.7.3</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
                <version>2.7.3</version>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-mapreduce-client-common</artifactId>
                <version>2.7.3</version>
            </dependency>
            
        </dependencies>
    
    
        <build>
            <plugins>
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-antrun-plugin</artifactId>
                    <version>1.7</version>
                    <executions>
                        <execution>
                            <id>hadoop remote run</id>
                            <phase>verify</phase>
                            <goals>
                                <goal>run</goal>
                            </goals>
                            <configuration>
                                <target name="test">
                                    <exec dir="${basedir}/shell" executable="bash">
                                        <arg value="deploy.sh"></arg>
                                    </exec>
                                </target>
                            </configuration>
                        </execution>
                    </executions>
                </plugin>
            </plugins>
        </build>
    
    </project>
    

    目前假设MapReduce已写好,但还没生成jar包。从命令界面(win用户推荐cmder)进入项目目录,使用mvn verify命令,此时,在target目录下会生成jar包,并按照shell文件中命令进行操作,在命令界面可以看到执行结果,这样我们就完成了调试自动化过程。

    小结

    本人虽不是数据工程师,但本着一切从简的原则,参考前辈的经验,使重复性的工作能够自动化,提高自身的工作效率。

    相关文章

      网友评论

        本文标题:Tip:Hadoop+Idea(本地测试+远程调试)

        本文链接:https://www.haomeiwen.com/subject/ffbdvttx.html