Hive概论

作者: _Unique_楠楠 | 来源:发表于2020-05-20 10:15 被阅读0次

    1.什么是Hive

    • Hive : 由Facebook 开源用于解决 <u>海量结构化日志</u> 的数据统计。

    • Hive是基于Hadoop的一个<u>数据仓库工具</u>,可以将 <u>结构化的数据文件映射为一张表</u> ,并提供 <u>类SQL</u> 查询功能

      本质是:将HQL转为MapReduce程序

    • Hive处理的数据存储在Hdfs

    • Hive分析数据底层的实现 <u>默认是 MapReduce</u> (可以换成其他的)

    • Hive运行程序是在yarn上的

      总结:可以吧Hive理解为一个客户端,方便你去调度Hadoop,所以它不是一个分布式的框架,而是一个客户端工具。


      image

    2.Hive的优缺点

    2.1 优点

    • 操作接口采用类SQL写法,提供快速开发能力
    • 避免了写MapReduce,减少学习成本
    • Hive执行的延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场景
    • Hive优势在于处理大数据,对于小数据处理没有优势
    • Hive支持用户自定义函数,用户可根据自己的需求定义函数

    2.2缺点

    • Hive的HQL表达能力有限
      • 迭代式算法无法表达
      • 数据挖掘方面不擅长
    • Hive的效率比较低
      • Hive自动生成的MapReduce作业,通常情况下不够智能
      • Hive调优比较困难,粒度较粗

    相关文章

      网友评论

        本文标题:Hive概论

        本文链接:https://www.haomeiwen.com/subject/jjlgohtx.html