写parquet文件遇到的问题

作者: JasmineSong | 来源:发表于2019-04-27 18:51 被阅读0次

df.write.format("parquet").mode(SaveMode.Overwrite).save(outputPath)

一、操作系统不允许非法字符包含在文件目录名中（这里的outputPath），所以在命名前需要将特殊字符过滤：
将不属于a-z,A-Z,0-9的字符去掉。
val pattern = sc.broadcast(Pattern.compile("[^a-zA-Z0-9]"))
val matcher = pattern.value.matcher(element(1)).replaceAll("").toLowerCase()
从而element(1)过滤掉非法字符后，用matcher替代即可。

二、目录的名称限制为255个字符，由于服务器这里没有权限改hdfs设置，所以只能在写入前，将目录截取为255。

三、parquet写文件时，列不区分大小写，从而可能会出现重复列的错误
例如reference "teacher" is ambiguous。
意思是teacher列出现了重复，但其实在dataframe中有一个teacher列和一个Teacher列。
这样只能修改列的名称，使它们不区分大小写也不一样。

网友评论

本文标题：写parquet文件遇到的问题

本文链接：https://www.haomeiwen.com/subject/qftlnqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

写parquet文件遇到的问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读