美文网首页
大数据开发-问题总结

大数据开发-问题总结

作者: weiwei_js | 来源:发表于2020-04-28 12:16 被阅读0次

    1,利用scala语言开发spark程序实现单词统计–集群运行 

    打成jar包提交到集群中运行 运行出错。

    原因:类名称写错了。

    获得需要运行的类的类名: Java 》 选择主类名 》右键 》Copy Reference

    错误的:com.kaikeba.WordCountOnSpark 

    正确的:scala.com.kaikeba.WordCountOnSpark 

     [hadoop@node01 ~]$ spark-submit --master spark://node02:7077,node03:7077 --class scala.com.kaikeba.WordCountOnSpark --executor-memory 1g --total-executor-cores 2 original-spark_class05-1.0-SNAPSHOT.jar /words.txt /out123 

    2,Java打包jar包并存储到电脑桌面

    打包如图所示,双击package 等待打包完成:

    拷贝打包好的jar包到桌面:

    target 》 maven-status 》选择想要的包 右键 》Refactor 》Copy File 

    如下图所示,并按照提示操作。

    3,虚拟机添加配置时候,让配置立即生效,命令无效

    [root@node01 conf]# source /etc/profile

    bash: rt:未找到命令

    原因是:profile 文件里的配置有错误/语法错误。(此处export 写成了 port),再次打开配置文件,建工诶之错误的地方改回来,再次执行即可。

    4,在hdfs上,解压安装spark 提示出错

    技术文档提供的方法:

    tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz

    官网下载的文件:

    spark-2.3.3-bin-hadoop2.7.tar

    Hdfs上的解压之后的提示:

    1 root@cmfchina:/usr/java# tar -zxvf spark-2.3.3-bin-hadoop2.7.tar -C /kkb/install

    2 gzip: stdin: not in gzip format

    3 tar: Child returned status 1

    4 tar: Error is not recoverable: exiting now

    解决办法(tar -zxvf 改为 tar -xvf ):tar -xvf spark-2.3.3-bin-hadoop2.7.tar

    5,按照课件操作,idea上进行词频统计,代码一样就是运行不了

    //3、读取数据文件

    JavaRDD<String>data=jsc.textFile("E:\\words.txt");

    原因:文件路径出错。

    "E:\\words.txt" 表示的是在Windows电脑E盘,并不是虚拟机的位置。

    解决办法:将这个文件路径改为在Mac电脑上的路径,注意不是在虚拟机上的为位置。

    //3、读取数据文件

    val data: RDD[String]= sc.textFile("/Users/lindon/Desktop/words.txt")    //"E:\\words.txt"

    6,命令运行不下去,或想结束命令怎么办?

    control+z

    7,在Hadoop节点上,在Hadoop,MySQL都已正常打开的情况下,启动hive提示没有此命令:

    [hadoop@node03 /]$ hive

    -bash: hive: 未找到命令

    原因:此节点没有添加hive的配置。或者以前添加了不知道什么原因删除了,解决办法如下:

    切换到root用户下

    [hadoop@node03 soft]$ su root 

    Password:

    打开/etc/profile文件 (配置好的文件不要随意更改!!!)

    [root@node03 soft]# vim /etc/profile

    末尾添加如下内容(根据自己的真是路径填写)

    export HIVE_HOME=/kkb/install/hive-1.1.0-cdh5.14.2

    export PATH=$PATH:$HIVE_HOME/bin

    切换回hadoop用户,并source

    [root@node03 soft]# su hadoop

    [hadoop@node03 soft]$ source /etc/profile

     验证:

    [hadoop@node03 ~]$ hive

    show databases;

    8,Flume  采集目录到HDFS

    问题:Flume 启动之后,监控一个文件夹里的文件,每次都不能正常启动。

    fLume启动问题

    原因:文件夹里有一张图片是中文命名,所以难以识别,centos 对中文不友好,以后精脸不要出现  ---中文路径 --- 

    将旧的文件夹删除,重新创建文件夹 启动即可。

    开始以为是 复制的 配置文件 格式有问题,试了几次,并没有解决问题。

    9,虚拟机上打开MySQL    (无论是虚拟机还是电脑终端,打开MySQL  一样的姿势!!!)

    [hadoop@node03 ~]$ mysql -u root -p

    相关文章

      网友评论

          本文标题:大数据开发-问题总结

          本文链接:https://www.haomeiwen.com/subject/avrvwhtx.html