不用搭集群学习大数据的网站（hue），快来感受下hive的魅力吧

作者: 3d游戏建模经验交流 | 来源:发表于2020-01-03 19:17 被阅读0次

不用搭集群学习大数据的网站（hue），快来感受下hive的魅力吧
全面探究Hive on Spark
Hive安装部署
Hue 编译安装和大数据组件集成配置
hdfs文件迁移
升级hue需要配置的模块
hue 中使用 oozie workflow 运行 shell
Sqoop的简单使用案例
21.1Hive复习
升级hue遇到的问题

不用搭集群学习大数据的网站（hue），快来感受下hive的魅力吧

废话不多说先上网址：http://demo.gethue.com/hue/

（谷歌浏览器打不开换IE浏览器试一试）

用户名：demo

密码：demo

进去就可以操作随时可以学习大数据了。

进去hue界面后操作步骤

大家在里面可以随时写自己的HIVE了，一般的HIVE会转换成MapReduce程序跑出数据。

虽然说这个界面简单易操作，适合入门,但是要真正的学习大数据不仅要自己搭载集群还要懂得背后的原理和优化方法。

个人总结学习大数据组件hive三个步骤：

1、如何使用hive

首先要明白什么是HIVE,HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。已经为大家精心准备了大数据的系统学习资料，从Linux-Hadoop-spark-......，需要的小伙伴可以点击它是hadoop的一个组件，在下图当中可以看到hive所处的位置。

其次为什么用hadoop中的hive，这里简单说一下，因为现在是大数据时代，移动互联网每天产生的数据可以用pb级别来衡量，传统的关系型数据根本不能满足其存储和计算需求。

大数据架构图

最后说说如何使用hive,其实hive支持大部分的sql,只是有细微的差异，背后的原理也和传统的数据库也不一样，差异如下图可以看出。

hive和关系数据库的对比

建表：

CREATE TABLE `customers`( `custid` int, `name` string, `email_preferences` struct<email_format:string,frequency:string,categories:struct<promos:boolean,surveys:boolean>>, `addresses` map<string,struct<street_1:string,street_2:string,city:string,state:string,zip_code:string>>, `orders` array<struct<order_id:string,order_date:string,items:array<struct<product_id:int,sku:string,name:string,price:double,qty:int>>>>) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' LOCATION 'hdfs://ip-172-31-19-94.us-west-2.compute.internal:8020/user/hive/warehouse/customers' TBLPROPERTIES ( 'COLUMN_STATS_ACCURATE'='false', 'last_modified_by'='demo', 'last_modified_time'='1549274028', 'numFiles'='1', 'numRows'='-1', 'rawDataSize'='-1', 'totalSize'='15812', 'transient_lastDdlTime'='1549274028') ca

查询：select count(0) from customers