美文网首页
spark sql快速入门

spark sql快速入门

作者: 松松土_0b13 | 来源:发表于2019-11-22 16:23 被阅读0次
常用的sql查询引擎

hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)

存储格式
  • orc(列式存储,Zlib压缩,侧重压缩率,和hive关系比较紧密)
  • rc(列式存储)
  • parquest(列式存储,spark默认的存储格式,采用Snappy压缩,侧重计算的性能)

总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。

至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用

相关文章

  • spark sql快速入门

    常用的sql查询引擎 hive,impala,hive on spark,presto(京东),drill(支持h...

  • 关于python学习文档

    1.《Spark 官方文档》Spark快速入门 英文原文:http://spark.apache.org/docs...

  • Spark RDD Api使用指南

    ​ 在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...

  • Spark注意事项

    spark快速入门 要让spark在集群模式下运行,需要正确设置 注意master默认要用spark master...

  • spark

    *Spark Spark 函数Spark (Python版) 零基础学习笔记(一)—— 快速入门 1.map与fl...

  • 大数据学习教程

    Hadoop生态 Hadoop相关内容 Spark Spark系列教程 Hive Hive快速入门 Elastic...

  • Spark快速入门

    Spark快速入门 本教程提供了如何使用 Spark 的简要介绍。首先通过运行 Spark 交互式的 shell(...

  • 10.spark sql之快速入门

    前世今生 Hive&Shark   随着大数据时代的来临,Hadoop风靡一时。为了使熟悉RDBMS但又不理解Ma...

  • 一、spark核心概念-入门篇

    前言 本节科目主要做spark的相关入门知识 1.1、spark是什么?(what?) spark是一个快速而通用...

  • SparkSQL简介

    一、 如何运行Spark SQL 查询 1.1、Spark SQL CLI 要启动Spark SQL CLI ,请...

网友评论

      本文标题:spark sql快速入门

      本文链接:https://www.haomeiwen.com/subject/vfwfwctx.html