美文网首页
2018-07-19

2018-07-19

作者: 大数据集 | 来源:发表于2018-07-19 17:31 被阅读0次

    sparkStreaming之checkPoint的作用解析


    checkPoint的几大作用:

    第一:如遇突发情况,导致sparkStreaming进程停止,从新启动sparkStreaming时,用于恢复历史数据。

    第二:sparkStreaming对接kafka时,用于维护kafka偏移量,即所谓的kafka自己维护偏移量

    第三:遇到mapWithState,updeStatebykey等全局聚合类算子时,需要到chekPoint中加载历史状态的数据。类似于缓存机制,缓存历史计算数据结果,可以使当前数据与历史数据进行相关全局计算操作。

    为保障数据高可用的可靠性,checkPoint的数据存储路径大多数为hdfs中

    相关文章

      网友评论

          本文标题:2018-07-19

          本文链接:https://www.haomeiwen.com/subject/lowzpftx.html