【解决方案】Spark 写入 Hive 出现HiveFileFo

作者: 齐舞647 | 来源:发表于2023-08-30 10:04 被阅读0次

原创-spark sql 写入hive较慢优化思路
spark执行过程分析
8.Spark学习(Python版本)：连接Hive读写数据（D
Spark下连接星环Hive2失败
Spark On Hive 部署和配置
Spark SQL
[一起学Hive]之二–Hive函数大全-完整版
Hive On Spark搭建(cdh)
Hive on Spark参数调优姿势小结
Spark SQL写入Hive，同分区overwrite，不同分

背景：

在 python spark 任务中，调用

df.repartition("a","b","c").write.format("parquet").mode(saveMode).partitionBy("date").saveAsTable("table_name")

出现报错，提示：

org.apache.spark.sql.AnalysisException: The format of the existing table arcsoft_analysis.zz_table is `HiveFileFormat`. It doesn't match the specified format `ParquetFileFormat`.

提示我们写入 hive 的 fileformat 不对。

这个报错在 spark 1.x 版本不会报错，在 spark 2.x 版本开始出现。

解决方案

如果我们的 hive 表不是分区表。将format("parquet")改成 format("hive")即可。

将format设置为Hive以后，无论hive建表的时候，使用的fileformat使用的是哪一种，都没有关系。

如果我们的 hive 表是分区表，可以先将数据存到一个临时表，再调用 spark.sql 插入数据。

        df = spark.createDataFrame(data, ["a", "b", "c", "ctime"])
        df.createOrReplaceTempView("temp_view")
        spark.sql("""
        INSERT INTO $hive_table_name PARTITION (date = '{}')
        select * from temp_view
        """.format(date))

网友评论

本文标题：【解决方案】Spark 写入 Hive 出现HiveFileFo

本文链接：https://www.haomeiwen.com/subject/scoomdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【解决方案】Spark 写入 Hive 出现HiveFileFo

背景：

解决方案

相关文章

原创-spark sql 写入hive较慢优化思路

spark执行过程分析

8.Spark学习(Python版本)：连接Hive读写数据（D

Spark下连接星环Hive2失败

Spark On Hive 部署和配置

Spark SQL

[一起学Hive]之二–Hive函数大全-完整版

Hive On Spark搭建(cdh)

Hive on Spark参数调优姿势小结

Spark SQL写入Hive，同分区overwrite，不同分

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读