美文网首页
Hive学习笔记20200423

Hive学习笔记20200423

作者: 70fa0b237415 | 来源:发表于2020-04-23 23:14 被阅读0次

    Hive的基本概念

    Hive是基于Hadoop的一个数据仓库工具

    Hive的核心工作是把sql语句翻译成MapReduce程序

    可以将结构化的数据映射为一张数据库表,并提供HQL(Hive Query Language)查询功能

    数据仓库与关系型数据库的区别

    HQL的引入仅仅是为了降低学习成本,底层还是MapReduce。Hive本身是数据仓库,并不是数据库系统。

    Hive和数据库的主要区别在查询语言、存储位置、数据格式、数据更新、索引、执行、执行延迟、可扩展性和数据规模几方面。

    Hive与RDBMS的区别

    数据库是将数据存储在块设备或本地文件系统中。而Hive是将所有数据存储在HDFS中,并建立在Hadoop之上。

    执行延迟

    由于Hive在查询数据的时候并没有索引,需要扫描整个表,由此造成的延迟较高,同时,由于MapReduce自身具有较高的延迟,也会导致查询延迟。相比较来说,在数据量规模小的情况下数据库的执行延迟较低。只有当数据规模大到超过数据库的处理能力的时候,Hive的并行计算优势才能体现出来。

    相关文章

      网友评论

          本文标题:Hive学习笔记20200423

          本文链接:https://www.haomeiwen.com/subject/nhrtwhtx.html