美文网首页
CDH无法跑起来

CDH无法跑起来

作者: 六月禅院 | 来源:发表于2020-07-01 13:56 被阅读0次

    一、环境配置

           在用虚拟机跑CDH的时候,想运行sqoop作业,各种报错,首先是datanode missing太多,处于安全模式,在用hdfs fsck /  命令查询的时候,却报权限不足(supergroup...),故先解决此问题

    1、groupadd supergroup;

    2、将用户root增加到supergroup中:usermod -a -G supergroup root

    3、同步系统的权限信息到HDFS文件系统:sudo -u hdfs dfsadmin -refreshUserToGroupsMappings

    4、查看属于supergroup用户组的用户:grep 'supergroup:' /etc/group

           完成上述步骤后,用户权限已有,再用hadoop dfsadmin -safemode leave解除安全模式;但主要问题在于hdfs损坏的节点太多,需要清理掉,所以:

    1、查看损坏的磁盘空间:hdfs fsck /

    块损坏

    2、上图可以看出缺失的块已经超过报警阈值,所以系统自动进入安全模式,故用hdfs fsck / -delete 清除掉损坏的块。

            然后再跑的时候又发现报错Import failed:java.io.FileNotFoundException: File does not exist:hdfs://master:8020/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.1.1-mr-framework.tar.gz。

    解决:1、hdfs dfs -chmod 755 /user/yarn

    2、hdfs dfs -chmod 755 /user/yarn/mapreduce

    3、CM->YARN-Actions->Install Yarn Mapreduce frame jar

           进入CM(Cloudera manager)的方法,再浏览器输入ip:7180即可进入登录页面。

           安装的时候发现无法安装,故选择一个极端的方式,卸载了hive、spark、yarn,重装,然后就没有报错,可以正常运行了。启动集群的方法:systemctl start cloudera-scm-server

    二、运行问题

           在跑sqoop执行数据导入的作业时,卡在mapreduce.Job: Running job: job_1593575588643_0004这一步,究其原因,是在安装yarn的时候默认分配的内存太小,需要改下。

    1 2

            搜索yarn.nodemanager.resource.memory-mb,或者搜索memory,找到该项,根据实际分配内存。

    3 4

          在跑hive插入表数据的时候,卡死在下图的位置:

    5

         内存太小,所以跑不起来,去CM里调整yarn的memory。

          再跑就没问题了。

    三、题型分析

         spark在输出文件时有两种方式,一种是write.option(),这种主要是针对于输出文件要求以某种压缩格式的,如The data should be stored in Snappy compressed Parquet files,此时需要写成resDF.write.option("compression","snappy").parquet("...")

        另一种是rdd.map(),这种主要是针对于输出时对列分隔等有特殊要求,如

    Use a text format with a tab as the columnar delimiter

    The out put should contain the employee's first and last name as the first column

    The output should conatin the month and day of the employee's hiredate as the second column

         此时需要写成resDF.rdd.map(x => x(0) + "\t" +x(1)).saveAsTextFile("...")。

         写此文,用于记录学习过程中遇到的一堆坑。

    相关文章

      网友评论

          本文标题:CDH无法跑起来

          本文链接:https://www.haomeiwen.com/subject/lavcqktx.html