美文网首页
走进大数据之Hive入门

走进大数据之Hive入门

作者: Derrick_Xu | 来源:发表于2016-08-23 10:15 被阅读0次

    学习目标

    Hive是构建在Hadoop之上的数据仓库,它的本质是就是一个数据库

    ① Hive和一般意义上的数据库有什么区别
    ② 如何搭建数据库
    ③ 创建的过程是什么
    ④ 如何把数据导入到数据库
    ⑤ 什么是Hive,Hive的体系结构是什么
    ⑥ Hive如何与hadoop HDFS进行相互操作
    ⑦ Hive数据与Hadoop中的文件之间的关系

    一 数据仓库

    1.基本概念

    概念:数据仓库是一个面向主题的,集成的,不可更新的,随时间不变化的数据集合,它用于支持企业或组织的决策分析处理
    面向主题:按主题组织(商品推荐系统)
    集成:数据仓库中的数据来自于分散的操作型的数据(oracle,mysql)
    不可更新:只做数据查询,一般不做数据更新,删除

    2.数据仓库的结构和建立过程

    Paste_Image.png

    ETL

    抽取Extract:提取不同数据源的数据
    转化Transform:转化格式,不同数据源的数据格式可能不一致
    装载Load:将满足数据格式的数据装载到数据仓库

    OLTP:联机事务处理(银行转账,扣钱和加钱的动作应该同时完成,不能只有扣钱没有加钱,或者只有加钱,没有扣钱)操作频率很高
    OLAP:联机分析处理(商品推荐系统,一般只做查询,不做更新插入操作)

    3.数据仓库中的数据模型

    星型模型,雪花模型

    以商品信息为核心构建的星型模型

    星型模型 雪花模型

    二、Hive

    1.基本概念

    • Hive是建立在Hadoop HDFS上的数据仓库基础架构
    • Hive是SQL解析引擎,它将SQL语句转化成Map、Reduce Job 然后在Hadoop执行
    • Hive允许熟悉MapReduce的开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作
    • Hive的表其实就是HDFS的目录/文件

    2.Hive的体系结构

    • Hive的元数据
      -Hive将元数据存储在数据库中(metastore),支持mysql,derby等数据库。
    元数据 Paste_Image.png Paste_Image.png Hive体系结构

    相关文章

      网友评论

          本文标题:走进大数据之Hive入门

          本文链接:https://www.haomeiwen.com/subject/qdqgsttx.html