课程来源:开课吧 https://learn.kaikeba.com/
大数据4V特征
Variety
Veracity
Volum
Velocity
Hadoop
-
开源软件平台
-
海量数据 分布式处理
-
核心组件:HDFS、MapReduce、YARN、Hadoop基础功能库
-
HDFS
文件存储系统
块级别
分布式 -
MapReduce
- 分布式计算框架
- Map阶段,大任务切分为多个小任务并执行
- Reduce阶段,小任务结果汇总
-
YARN
- 作业调度和资源管理器
- 资源管家
-
Hadoop生态圈
-
Hive、hadoop —— 离线更新计算
Spark、flink —— 在线实时计算
Hive
- 遵循SQL规则, 现在大都是99版标准
- 数量级大
- 执行延迟高,20s
- 查询语言: HQL
- 数据存储: HDFS
- 易横向扩展
- 历史数据一般不能改变,只能检索、查
- 用户行为日志数据量大,要存在Hive中
数据平台使用
- 连接
- 进入root用户
su - root - 开启Hadoop
start-all.sh
jps # 检测Java进程,为6个进程时表明已经启动 - 开启hive
cd /opt/module/apache-hive-3.1.1-bin
bin/hive - 使用
show databases;
use kaikeba; # 进入开课吧目录
show tables;
desc formatted user_info;
quit; # 退出 - 关闭Hadoop
stop-all.sh - 分区表查询一定要指定分区
网友评论