美文网首页
spark sql快速入门

spark sql快速入门

作者: 松松土_0b13 | 来源:发表于2019-11-22 16:23 被阅读0次
    常用的sql查询引擎

    hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)

    存储格式
    • orc(列式存储,Zlib压缩,侧重压缩率,和hive关系比较紧密)
    • rc(列式存储)
    • parquest(列式存储,spark默认的存储格式,采用Snappy压缩,侧重计算的性能)

    总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。

    至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用

    相关文章

      网友评论

          本文标题:spark sql快速入门

          本文链接:https://www.haomeiwen.com/subject/vfwfwctx.html