hadoop入门五步走

作者: 勃列日涅夫 | 来源:发表于2019-04-03 16:13 被阅读5次

    入门五步走

    第一步 安装hadoop集群

    可以浏览w3c的描述,熟悉hadoop的概念
    https://www.w3cschool.cn/hadoop/

    第三步 操作操作
    *1、 直接在服务端操作使用hadoop命令做一些操作

    给出一个文件上传到hdfs和下载到本地的example

    # 1st  在本地新建一个文件
    [root@node21 admin]# cat wc.txt 
    a,1 b,1 b,5
    a,3 c,3 d,15 e,11
    a,2 d,2
    # 2st 在hadoop上创建一个目录,用于存放该文件
    [root@node21 admin] hadoop fs -mkdir -p  /user/input
    可以看到hadoop的fs命令下,有很多和linux命令相似的地方,无聊可以help看哈
    root@node21 admin]# hadoop fs --help
    --help: Unknown command
    Usage: hadoop fs [generic options]
        [-appendToFile <localsrc> ... <dst>]
        [-cat [-ignoreCrc] <src> ...]
        [-checksum <src> ...]
        [-chgrp [-R] GROUP PATH...]
        [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
        [-chown [-R] [OWNER][:[GROUP]] PATH...]
        [-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
        [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
        [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
        [-createSnapshot <snapshotDir> [<snapshotName>]]
    .................省略一堆堆
    # 3st 上传到该目录
    [root@node21 admin]hadoop fs -put ~/wc.txt  /user/input
    # 4st 查看是否已经存在该文件
    [root@node21 admin]# hadoop fs -ls /user/input
    -rw-r--r--   2 admin supergroup         38 2019-03-30 08:41 /user/input/wc.txt
    #5st  ok接下来下载到本地并查看
    [root@node21 admin]# hadoop fs -get /user/input/wc.txt /home/
    admin/  hadoop/ xzg/    
    [root@node21 admin]# hadoop fs -get /user/input/wc.txt /home/
    [root@node21 admin]# ls /home/
    wc.txt  
    ### 就酱。 
    
    • 2、运行一个hadoop的简单事例,了解map-reduce机制
      先给出命令,运行该命令是注意要使用hadoop用户,就是配置hadoop的用户

    hadoop jar /opt/hadoop3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount /user/input/word.txt /user/output

    上面hadoop jar 运行jar包,hadoop-mapreduce-examples-3.1.1.jar这个jar就是hadoop自己提供的,这里面有很多简单的例子(有兴趣可以解压或者官网或者到github查看相关源码),wordcount 就是其中一个。这里我们指定运行wordcount例子(用于计算单词数量)
    输入路径:/user/input/word.txt 是要我们自己编写文件上传到hdfs的/user/input路径下。内容可参考

    [admin@node21 ~]$ hadoop fs -cat /user/input/word.txt
    i love you
    

    /user/output是我们指定输出的结果路径
    执行结果如下(part-r-00000是默认结果生产的文件,可以hadoop fs -ls /user/outpu查看):

    [admin@node21 ~]$ hadoop fs -cat /user/output/part-r-00000
    i   1
    love    1
    you 1
    

    第四步 本地开发

    我这里使用的idea,作为本地开发工具

    • 1st 首先需要导入相关jar包,jar来源就是下载hadoop后解压后的share文件里(具体以个人,不过主要common、hdfs、mapreduce、yarn这几个包下的)


      图片.png
    • 2st 将hadoop服务端的配置文件,加入项目src目录下。项目启动时会使用到,否则会报错

    图片.png
    • 3st 开发前需要配置开发环境的hadoop的path


      图片.png
    windows本地运行mr程序时(不提交到yarn,运行在jvm靠线程执行),hadoop.dll防止报nativeio异常、winutils.exe没有的话报空指针异常。
    

    所以我们需要额外添加这winutils.exe到你本地hadoop的bin目录下,
    (github下载地址)[https://github.com/steveloughran/winutils] 根据服务端及本地hadoop版本选择,不过我使用3.1的选择的3.0版本

    • 4st 一个简单的测试连接服务端hdfs类
    public class Chapter3 {
    
        public static void main(String[] args) {
            try {
                String filename = "hdfs://10.11.91.225:9000/user/input/data.txt";
                Configuration conf = new Configuration();
                conf.set("fs.defaultFS", "hdfs://10.11.91.225:9000");
    //            conf.set("mapreduce.jobtracker.address", "10.11.91.255:9000");
                // 这个解决hdfs问题
                conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
                // 这个解决本地file问题
                conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());
                FileSystem fs = FileSystem.get(conf);
                if(fs.exists(new Path(filename)))
                {
                    System.out.println("文件存在");
    //                fs.
                }else{
                    System.out.println("文件不存在");
                }
            } catch (Exception e)
            {
                e.printStackTrace();
            }
        }
    }
    

    上面代码本地开发环境和远程服务的连通测试

    • 3st 编写一个任务,从本地开发环境丢到hadoop集群上运行(这是一个计算单词key,合并value的例子)
      先写个文件丢到hdfs上
    [admin@node21 ~]$ hadoop fs -cat /user/input/wc.txt
    a,1 b,1 b,5
    a,3 c,3 d,15 e,11
    a,2 d,2
    

    预期我们想要的结果如下:

    a   6
    b   6
    c   3
    d   17
    e   11
    

    代码实现,主要三个类

    1. WordCountMapper 类用于split和map阶段
    // //这个Mapper类是一个泛型类型,它有四个形参类型,分别指定map函数的输入键、输入值、输出键、输出值的类型
    public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        //该方法循环调用,从文件的split中读取每行调用一次,把该行所在的下标为key,该行的内容为value
        protected void map(LongWritable key, Text value,
                           Context context)
                throws IOException, InterruptedException {
            String[] words = StringUtils.split(value.toString(), ' ');
            for(String w :words){
                //a,1 a,2 重新组装a:1 a:2
                String[] kevs = w.split(",");
                context.write(new Text(kevs[0]), new IntWritable(Integer.valueOf(kevs[1])));
            }
        }
    }
    
    1. WordCountReducer类用于Shuffle和reduce阶段
    public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    
        //每组调用一次,这一组数据特点:key相同,value可能有多个。
        protected void reduce(Text arg0, Iterable<IntWritable> arg1,
                              Context arg2)
                throws IOException, InterruptedException {
            //增加所有的值
            int sum =0;
            for(IntWritable i: arg1){
                sum=sum+i.get();
            }
            arg2.write(arg0, new IntWritable(sum));
        }
    }
    
    1. RunJob类为程序的入口和job的设置
    public class RunJob {
    
        public static void main(String[] args) {
            Configuration config =new Configuration();
    //        config.set("fs.defaultFS", "hdfs://HadoopMaster:9000");
            config.set("fs.defaultFS", "hdfs://10.11.91.225:9000");
            //node22为hadoopyarn-site.xml中的配置
            config.set("yarn.resourcemanager.hostname", "node22");
            //设置执行的用户,需要是服务端的hadoop用户,否则无权限执行,报错.AccessControlException: Permission denied
            System.setProperty("HADOOP_USER_NAME", "admin");
    //    config.set("mapred.jar", "C:\\Users\\Administrator\\Desktop\\wc.jar");//先打包好wc.jar
            try {
                FileSystem fs =FileSystem.get(config);
                Job job = Job.getInstance(config);
                job.setJarByClass(RunJob.class);
                job.setJobName("wc");
                job.setMapperClass(WordCountMapper.class);
                job.setReducerClass(WordCountReducer.class);
                job.setMapOutputKeyClass(Text.class);
                job.setMapOutputValueClass(IntWritable.class);
                FileInputFormat.addInputPath(job, new Path("/user/input/wc.txt"));//新建好输入路径,且数据源
                Path outpath =new Path("/user/output/wc");
                if(fs.exists(outpath)){
                    fs.delete(outpath, true);
                }
                FileOutputFormat.setOutputPath(job, outpath);
                boolean f= job.waitForCompletion(true);
                if(f){
                    System.out.println("job任务执行成功");
                }
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
    

    注意:由于本地为windows下环境需要修改hadoop源码,否则会出现NativeIO$Windows.access错误
    (hadoop源码)[https://github.com/apache/hadoop] 下载本地后修改如下文件

    \hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio\NativeIO.java
    
    图片.png

    修改后添加到本地,新建的包名要和hadoop的相同,这样本地执行引入的jar会优先加载该类。


    图片.png

    最后运行成功后,查看运行结果

    [admin@node21 ~]$ hadoop fs -cat /user/output/wc/part-r-00000
    a   6
    b   6
    c   3
    d   17
    e   11
    

    和预期相同,很好
    最后顺便贴出项目结构吧

    图片.png
    第五步
    剩下的理解上面的代码,然后根据自己想法编写,已经理解hadoop运行原理和源码。好了,你已经算是入门了,哦 错了 应该是我

    什么 源码? 那就上传到gayhub

    相关文章

      网友评论

        本文标题:hadoop入门五步走

        本文链接:https://www.haomeiwen.com/subject/rstzbqtx.html