Hive初识

作者: 明明德撩码 | 来源:发表于2018-02-28 10:52 被阅读63次

    背景

    mapreduce编程的不变性,开发成本较高。比较死板。

    • MapReduce is hard to program

    【八股文】格式编程,三大部分

    • No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等)

    数据分析,针对DBA、SQL语句,如何对数据分析
    MapReduce编程成本高
    FaceBook 实现并开源Hive

    如何简化MapReduce的开发???

    hive介绍

    hive把HDFS、yarn、MapReduce封装了。数据存储在hdfs、转换为MapReduce、运行在yarn上。hive是一个数据仓库。

    什么是HIVE?

    • 由Facebook开源用于解决海量结构化日志的数据统计;

    • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;

    • 构建在Hadoop之上的数据仓库;
      使用HQL作为查询接口;
      使用HDFS存储;
      使用MapReduce计算;

    • 本质是:将HQL转化成MapReduce程序

    • 灵活性和扩展性比较好:支持UDF,自定义存储格式等;

    • 适合离线数据处理;

    • HQL的核心是Engine。引擎的作用是把HQL转换为mapreduce

    HIVE在hadoop生态中的位置

    image.png

    相关文章

      网友评论

        本文标题:Hive初识

        本文链接:https://www.haomeiwen.com/subject/nffbxftx.html