pyspark上保存成hdfs文件的几种方式：

作者: 轻菊不爱柠檬 | 来源:发表于2020-08-11 14:01 被阅读0次

1.当我的数据是rdd格式的

rdd.saveAsTextFile('path_name')

或者：

rdd.repartition(1).saveAsTextFile('path_name') #表示将数据拉到一个分区，emmmm话说我一直不知道为什么要拉到一个分区，这样不会导致某个内存爆掉嘛

2.当我的数据是pyspark的dataframe（直接hiveContext(sc).sql(slect语句)）出来的就是这这种类型

df.coalesce(1).write.csv('path_name') #df.coalesce(1)表示合并成一个csv

q其他的日后补充~~

网友评论

本文标题：pyspark上保存成hdfs文件的几种方式：

本文链接：https://www.haomeiwen.com/subject/lmzedktx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！