美文网首页
pyspark上保存成hdfs文件的几种方式:

pyspark上保存成hdfs文件的几种方式:

作者: 轻菊不爱柠檬 | 来源:发表于2020-08-11 14:01 被阅读0次

    1.当我的数据是rdd格式的

    rdd.saveAsTextFile('path_name')

    或者:

    rdd.repartition(1).saveAsTextFile('path_name')  #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛

    2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型

    df.coalesce(1).write.csv('path_name')     #df.coalesce(1)表示合并成一个csv

    q其他的日后补充~~        

    相关文章

      网友评论

          本文标题:pyspark上保存成hdfs文件的几种方式:

          本文链接:https://www.haomeiwen.com/subject/lmzedktx.html