问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。
根本原因-Spark的CheckPoint里面的状态是初始执行时生成的shuffle数的目录数,继而再根据流流join每个生成4个目录。而后减少shuffle无法减少目录数。
解决方案-清除旧状态,减少shuffle数便能减少文件数。
问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。
根本原因-Spark的CheckPoint里面的状态是初始执行时生成的shuffle数的目录数,继而再根据流流join每个生成4个目录。而后减少shuffle无法减少目录数。
解决方案-清除旧状态,减少shuffle数便能减少文件数。
本文标题:StructuredStreaming的CheckPoint里面
本文链接:https://www.haomeiwen.com/subject/cksorctx.html
网友评论