大数据开发练习题来一波

作者: yoku酱 | 来源:发表于2019-08-20 10:54 被阅读4次

01

下列哪项通常是集群的最主要瓶颈: ( )

A .CPU

B .网络

C .磁盘 IO

D .内存

02

2.HDFS 中的 block 默认保存几份?( )

A .3 份

B .2 份

C. 1 份

D .不确定

03

系统日志文件由Hadoop生成,并默认被存储在$HADOOP_HOME/logs。

这可以使用hadoop-env.sh中的哪个参数设置来改变?  ( )

A. HADOOP_CONF_DIR

B. HADOOP_LOG_DIR

C. HADOOP_HEAPSIZE

D. HADOOP_NAMENODE_OPTS

04

执行如下哪个命令,

用来初始化name目录和data目录 ( )

A.hadoop namenode -jar

B.hadoop namenode -format

C.hadoop datanode -jar

D.hadoop datanode -format

05

Hadoop中,Client 端上传文件的时候下列哪些项正确( )

A.数据经过 NameNode 传递给 DataNode

B.Client 端将文件切分为Block,依次上传

C.Client 只上传数据到一台DataNode,然后由 NameNode 负责 Block 复制工作

D.数据经过 DataNode 传递给 NameNode

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群458345782,私信管理员即可免费领取开发工具以及入门学习资料

06

在 Hadoop v2 YARN 中,负责整个系统的资源管理和分配的组件是( ) 

A.NodeManager

B.ResourceManager

C.ApplicationMaster

D.Container

07

在 Hbase 中如何删除表 t1( )

A drop table t1

B truncate t1

C drop ‘t1’

D truncate table t1

08

下面哪项工作场景不是MapReduce 计算框架擅长处理的?( )

A、分析 web 日志记录,分析用户的行为

B、实时分析微博热词

C、分析气象数据,找出有历史记录以来每年的最高气温

D、购物蓝分析,分析用户购买商品的关联度

09

hive 存储元数据

不可以使用哪个数据库( )

A. derby

B. mysql

C. oracle

D. hbase

10

Hbase 的负载查询操作默认是通过哪个分布式计算框架完成的( )

A.HDFS

B.SPARK

C.Hive

D.MapReduce

答案

点击下方空白处获得参考答案

1-5  CABBB

6-10  BCBDD

如何学习大数据技能?

现在大数据团队工作比较细分,主要有大数据系统研发人员和大数据分析师.

大数据平台包含了采集层、存储层、计算层和应用层,是一个复杂的IT系统,需要学会Hadoop等分布式系统的开发技能。主要有1采集层:Sqoop可用来采集导入传统关系型数据库的数据、Flume对于日志型数据采集是非常适用的,另外使用Python一类的语言开发网络爬虫获取网络数据;2储存层:分布式文件系统HDFS最为常用;3计算层:有不同的计算框架可以选择,常见的如MapReduce、Spark等,一般来讲,如果能使用计算框架的“原生语言”,运算效率会最高;4应用层:包括结果数据的可视化、交互界面开发以及应用管理工具的开发等,更多的用到Python等通用IT开发前端、后端的能力.

大数据分析指的是利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换.数据挖掘模型:聚类 决策树 关联分析 SVM、神经网络 贝叶斯网络等.使用Spark大数据分析和Python工具解决业务问题.感兴趣朋友可以咨询赵老师,免费获取课程大纲.

相关文章

网友评论

    本文标题:大数据开发练习题来一波

    本文链接:https://www.haomeiwen.com/subject/yuoajctx.html