美文网首页
Hive存储方式

Hive存储方式

作者: 神呐_宽恕我把 | 来源:发表于2019-12-10 11:30 被阅读0次

    1.textfile

    Hive的默认存储格式

    存储方式:行存储

    磁盘开销大数据解析开销大

    压缩的text文件 hive无法进行合并和拆分

    2.SequenceFile

    二进制文件以key,value的形式序列化到文件中

    存储方式:行存储

    可分割压缩

    一般选择block压缩

    优势是文件和Hadoop api中的mapfile是相互兼容的

    3.rcfile

    存储方式:数据按行分块每块按照列存储

    压缩快快速列存取

    读记录尽量涉及到的block最少

    读取需要的列只需要读取每个row group 的头部定义。

    读取全量数据的操作性能可能比sequencefile没有明显的优势

    4.orc

    存储方式:数据按行分块每块按照列存储

    压缩快快速列存取

    效率比rcfile高,是rcfile的改良版本

    5.自定义格式

    用户可以通过实现inputformat和 outputformat来自定义输入输出格式

    相关文章

      网友评论

          本文标题:Hive存储方式

          本文链接:https://www.haomeiwen.com/subject/ajowgctx.html