1.当我的数据是rdd格式的
rdd.saveAsTextFile('path_name')
或者:
rdd.repartition(1).saveAsTextFile('path_name') #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛
2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型
df.coalesce(1).write.csv('path_name') #df.coalesce(1)表示合并成一个csv
q其他的日后补充~~
网友评论