(1)Hive的基本介绍
**
**
1.png
(2)Hive与传统数据库的区别
Hive不支持数据的更新,,也不支持事务和索引,只能只读
不能秒级响应,只能分钟级响应;
2.png
(3)Hive在企业分析平台中的应用
Hive一般用于报表中心;
Mahout是基于hadoop的开源插件,已经实现了各种机器学习、数据挖掘算法,所以能够帮助企业快速建立业务模型支持BI(商务智能)。
(4)Hive具体操作
-
hive数据与关系型数据库之间的传输用sqoop开源工具。
-
hadoop start-dfs.sh的作用在于启动主节点的namenode,启动secondnamenode,以及各从节点的datanode进程。
-
man 5 passwd 表示显示passwd文件的结构,这是LINUX操作系统语言
-
select--from--where--group by--having--order by其中select和from是必须的,其他关键词是可选的,这六个关键词的执行顺序与sql语句的书写顺序并不是一样的,而是按照下面的顺序来执行:
from--where--group by--having--select--order by,
在写SQL文的时候,尽量把数据量大的表放在最右边来进行关联。 -
hadoop集群的几种运行模式:单机(本地)模式;伪分布式模式;全分布式模式(中心版)。
-
mysql中如何整理表数据文件的碎片:OPTIMIZE TABLE table_name。
-
在HDFS中,所有的文件都是以block块的概念而存在的,那么在这样海量的文件数据的情况下,难免会发生一些文件块损坏的现象,可以使用HDFS的fsck相关的命令去发现。
-
hive上查看hive执行计划的命令:explain
网友评论