SparkSQL与Parquet格式兼容性

作者: liuzx32 | 来源:发表于2020-06-19 15:44 被阅读0次

SparkSQL与Parquet格式兼容性
SparkSQL与Parquet兼容
sparksql读取parquet格式hive表的配制
Parquet列式存储格式详解，下推和压缩性能测试
parquet学习总结
SparkSql学习一
Spark开发--Spark SQL--数据源（十六）
spark题03
数据模型和数据存储格式
将Avro数据转换为Parquet格式

Spark中配置Parquet参数

parquet的相关的参数可以通过setconf或者set key=value的形式配置。

spark.sql.parquet.binaryAsString 默认值是false。一些parquet生产系统，尤其是impala，hive和老版本的spark sql，不区分binary和string类型。该参数告诉spark 讲binary数据当作字符串处理。
spark.sql.parquet.int96AsTimestamp 默认是true。有些parquet生产系统，尤其是parquet和hive，将timestamp翻译成INT96.该参数会提示Spark SQL讲INT96翻译成timestamp。
spark.sql.parquet.compression.codec 默认是snappy。当写parquet文件的时候设置压缩格式。如果在option或者properties里配置了compression或者parquet.compression优先级依次是：compression，parquet.compression，spark.sql.parquet.compression.codec。支持的配置类型有:none，uncompressed，snappy，gzip，lzo，brotli，lz4，zstd。在hadoop2.9.0之前，zstd需要安装ZstandardCodec，brotli需要安装BrotliCodec。
spark.sql.parquet.filterPushdown 默认是true。设置为true代表开启parquet下推执行优化。
spark.sql.hive.convertMetastoreParquet 默认是true。假如设置为false，spark sql会读取hive parquet表的时候使用Hive SerDe，替代内置的。
spark.sql.parquet.mergeSchema 默认是false。当设置为true的时候，parquet数据源会合并读取所有的parquet文件的schema，否则会从summary文件或者假如没有summary文件的话随机的选一些数据文件来合并schema。
spark.sql.parquet.writeLegacyFormat 默认是false。如果设置为true 数据会以spark 1.4和更早的版本的格式写入。比如，decimal类型的值会被以apache parquet的fixed-length byte array格式写出，该格式是其他系统例如hive，impala等使用的。如果是false，会使用parquet的新版格式。例如，decimals会以int-based格式写出。如果spark sql要以parquet输出并且结果会被不支持新格式的其他系统使用的话，需要设置为true。

网友评论

本文标题：SparkSQL与Parquet格式兼容性

本文链接：https://www.haomeiwen.com/subject/ouavxktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

SparkSQL与Parquet格式兼容性

parquet的相关的参数可以通过setconf或者set key=value的形式配置。

相关文章

SparkSQL与Parquet格式兼容性

SparkSQL与Parquet兼容

sparksql读取parquet格式hive表的配制

Parquet列式存储格式详解，下推和压缩性能测试

parquet学习总结

SparkSql学习一

Spark开发--Spark SQL--数据源（十六）

spark题03

数据模型和数据存储格式

将Avro数据转换为Parquet格式

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读