美文网首页
大数据分析Hive

大数据分析Hive

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-20 23:54 被阅读0次

    课程来源:开课吧 https://learn.kaikeba.com/

    大数据4V特征

    Variety
    Veracity
    Volum
    Velocity

    Hadoop

    • 开源软件平台

    • 海量数据 分布式处理

    • 核心组件:HDFS、MapReduce、YARN、Hadoop基础功能库

    • HDFS
      文件存储系统
      块级别
      分布式

    • MapReduce

      • 分布式计算框架
      • Map阶段,大任务切分为多个小任务并执行
      • Reduce阶段,小任务结果汇总
    • YARN

      • 作业调度和资源管理器
      • 资源管家
    • Hadoop生态圈

    • Hive、hadoop —— 离线更新计算
      Spark、flink —— 在线实时计算

    Hive

    • 遵循SQL规则, 现在大都是99版标准
    • 数量级大
    • 执行延迟高,20s
    • 查询语言: HQL
    • 数据存储: HDFS
    • 易横向扩展
    • 历史数据一般不能改变,只能检索、查
    • 用户行为日志数据量大,要存在Hive中

    数据平台使用

    • 连接
    • 进入root用户
      su - root
    • 开启Hadoop
      start-all.sh
      jps # 检测Java进程,为6个进程时表明已经启动
    • 开启hive
      cd /opt/module/apache-hive-3.1.1-bin
      bin/hive
    • 使用
      show databases;
      use kaikeba; # 进入开课吧目录
      show tables;
      desc formatted user_info;
      quit; # 退出
    • 关闭Hadoop
      stop-all.sh
    • 分区表查询一定要指定分区

    相关文章

      网友评论

          本文标题:大数据分析Hive

          本文链接:https://www.haomeiwen.com/subject/vyuwhktx.html