美文网首页
Pyspark读取大文件的一个坑

Pyspark读取大文件的一个坑

作者: 杨康chin | 来源:发表于2022-05-19 13:14 被阅读0次

    最好把文件分割到10g以下,每次读取一个,否则会自动truncate,而且还不告诉你。400g的文件我一次性读入实测只有100多g读进去了,造成结果严重错误。当然应该跟memory有关系,但我已经设置得很大了,还是出现问题,最后选择分割成40个小文件。

    相关文章

      网友评论

          本文标题:Pyspark读取大文件的一个坑

          本文链接:https://www.haomeiwen.com/subject/bjdtprtx.html