美文网首页
StructuredStreaming的CheckPoint里面

StructuredStreaming的CheckPoint里面

作者: 0o青团o0 | 来源:发表于2019-07-30 19:55 被阅读0次

问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。
根本原因-Spark的CheckPoint里面的状态是初始执行时生成的shuffle数的目录数,继而再根据流流join每个生成4个目录。而后减少shuffle无法减少目录数。
解决方案-清除旧状态,减少shuffle数便能减少文件数。

相关文章

网友评论

      本文标题:StructuredStreaming的CheckPoint里面

      本文链接:https://www.haomeiwen.com/subject/cksorctx.html