01
下列哪项通常是集群的最主要瓶颈: ( )
A .CPU
B .网络
C .磁盘 IO
D .内存
02
2.HDFS 中的 block 默认保存几份?( )
A .3 份
B .2 份
C. 1 份
D .不确定
03
系统日志文件由Hadoop生成,并默认被存储在$HADOOP_HOME/logs。
这可以使用hadoop-env.sh中的哪个参数设置来改变? ( )
A. HADOOP_CONF_DIR
B. HADOOP_LOG_DIR
C. HADOOP_HEAPSIZE
D. HADOOP_NAMENODE_OPTS
04
执行如下哪个命令,
用来初始化name目录和data目录 ( )
A.hadoop namenode -jar
B.hadoop namenode -format
C.hadoop datanode -jar
D.hadoop datanode -format
05
Hadoop中,Client 端上传文件的时候下列哪些项正确( )
A.数据经过 NameNode 传递给 DataNode
B.Client 端将文件切分为Block,依次上传
C.Client 只上传数据到一台DataNode,然后由 NameNode 负责 Block 复制工作
D.数据经过 DataNode 传递给 NameNode
如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群458345782,私信管理员即可免费领取开发工具以及入门学习资料
06
在 Hadoop v2 YARN 中,负责整个系统的资源管理和分配的组件是( )
A.NodeManager
B.ResourceManager
C.ApplicationMaster
D.Container
07
在 Hbase 中如何删除表 t1( )
A drop table t1
B truncate t1
C drop ‘t1’
D truncate table t1
08
下面哪项工作场景不是MapReduce 计算框架擅长处理的?( )
A、分析 web 日志记录,分析用户的行为
B、实时分析微博热词
C、分析气象数据,找出有历史记录以来每年的最高气温
D、购物蓝分析,分析用户购买商品的关联度
09
hive 存储元数据
不可以使用哪个数据库( )
A. derby
B. mysql
C. oracle
D. hbase
10
Hbase 的负载查询操作默认是通过哪个分布式计算框架完成的( )
A.HDFS
B.SPARK
C.Hive
D.MapReduce
答案
点击下方空白处获得参考答案
1-5 CABBB
6-10 BCBDD
如何学习大数据技能?
现在大数据团队工作比较细分,主要有大数据系统研发人员和大数据分析师.
大数据平台包含了采集层、存储层、计算层和应用层,是一个复杂的IT系统,需要学会Hadoop等分布式系统的开发技能。主要有1采集层:Sqoop可用来采集导入传统关系型数据库的数据、Flume对于日志型数据采集是非常适用的,另外使用Python一类的语言开发网络爬虫获取网络数据;2储存层:分布式文件系统HDFS最为常用;3计算层:有不同的计算框架可以选择,常见的如MapReduce、Spark等,一般来讲,如果能使用计算框架的“原生语言”,运算效率会最高;4应用层:包括结果数据的可视化、交互界面开发以及应用管理工具的开发等,更多的用到Python等通用IT开发前端、后端的能力.
大数据分析指的是利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换.数据挖掘模型:聚类 决策树 关联分析 SVM、神经网络 贝叶斯网络等.使用Spark大数据分析和Python工具解决业务问题.感兴趣朋友可以咨询赵老师,免费获取课程大纲.
网友评论