概念:
hive是一个开源的基于hadoop的数据数据仓库工具,可以将结构化数据映射为一张表,并提供类SQL的查询,它可以将类SQL转化为mapreduce程序,它可以用于海量结构化日志的数据统计
Hive的可以将类SQL转化为mapreduce的程序,其学习成本较低,节约了开发人员学习mr编程的学习成本,由于hive执行的延迟比较高效率低,使hive适用于大数据集的分析,因此对于在实时性高和分析数据集小的场景,hive并不适用
hive的安装
下载hive上传服务器并解压,配置hive的环境变量
image.png到hive安装目录的conf目录,将hive-env.sh.template改名或拷贝为hive-env.sh,将hadoop的环境变量和hive的配置路径配置上
image.png启动hadoop和yarn将启动后,在hdfs中新建文件夹/tmp 和 /user/hive/warehouse 文件夹,并授权
hadoop fs -mkdir /tmp,
hadoop fs -mkdir /user/hive/warehouse,
hadoop fs -chmod g+w /tmp,
/hadoop fs -chmod g+w /user/hive/warehouse
启动hive,安装目录bin下执行了hive
image.pnghive的操作
创建表
image.png
插入,我们看到插入语句跑的是mr,并且延迟过低
image.png查询
image.png导入文件里的数据
先创建一个文件hive.txt,插入的内容为,间隔是使用TAB键间隔起来
执行 create table huser(id int,name string) row format delimited fields terminated by "\t";创建huser表明读进来的文件安照"\t"分割
启动hive,执行load data local inpath "/home/bingbing/test/hive.txt" into table huser
查看是导入是否成功
image.pnghive的增删查改和数据库差不多,我就不列其他的了,hive会用就行
网友评论