美文网首页
spark的csv读取落地相关

spark的csv读取落地相关

作者: 早点起床晒太阳 | 来源:发表于2020-05-09 17:42 被阅读0次

    前言

    spark 在读取和落地CSV的时候 也是一门学问,一面有很多的注意细节以及小技巧可以使用。
    参考资料:https://github.com/databricks/spark-csv (这里涵盖了csv的option参数)

    1、读取

    2、落地

    1、落地的时候为null的会落成""

    我在我们做BI 这边也有这种场景,就是dataset中为null的数据然后落地会为"".比如一个dataset show 出来的数据时

    3,null,5

    如果 .csv 直接落地的话 落地结果时3,"",5。这样就会有一个问题如果hive使用的时候,""的对应的为int 等类型的时候就会出现识别不出来的情况。
    所以落地结果为3,,5更合理,适用也更广。
    所以 在落地的时候加上参数option("emptyValue",""),类似

    frame.write.option("emptyValue","").csv("demo")

    这样出来的结果就是 3,,5了

    相关文章

      网友评论

          本文标题:spark的csv读取落地相关

          本文链接:https://www.haomeiwen.com/subject/ftqlnhtx.html