美文网首页
04-flink VS spark VS strom

04-flink VS spark VS strom

作者: 蜗牛写java | 来源:发表于2019-10-07 20:29 被阅读0次

    04-flink VS spark VS strom

    流派对比

    Record ACK Micro-batching Transactional updates Distribted snapshots
    代表 Apache Strom Apache Spark Goole Cloud Dataflow Apache Flink
    语义保证 At least once Exactly once Exactly once Exactly once
    延迟 较低(事务延迟)
    吞吐 较高(取决于事务存储吞吐)
    计算模型 微批
    容错开销 较低(取决于事务存储吞吐)
    流控 较差 较差
    业务和容错分离 部分 紧耦合 分离 分离
    原理 Source保留其产生的所有记录备份,当源头一条记录的所有派生记录都被处理完成,Source节点就可以删除其备份 连续的数据流不要切分到record级别,而是收敛切分为一批一批微批的、原子的数据进行类型Batch的计算。每个batch的数据可能会成功或者失败,我们就对当前失败的小批数据进行处理即可 原子地记录数据的处理以及状态的更新(类似数据的WAL日志)。一旦系统出现Fail,可从记录的日志中恢复我们需要的中间计算状态和需要处理数据 确定当前流式计算的状态(包括正在处理的数据,以及operator状态),生成该状态的一致快照,并持久存储
    说明 一条条处理(下游处理完一条数据,再向上游要一条数据处理) 相当于一批一批处理(微批)

    Flink API VS Spark API

    API Spark Flink
    底层API RDD Process Function
    核心API DataFrame/DataSet/Structured Streaming DataStream/DataSet
    SQL SparkSQL Table API & SQL
    机器学习 MLlib FlinkML
    图计算 GraphX Gelly
    其它 CEP

    Flink VS Strom 吞吐

    flinkVSstrom吞吐.png

    Flink功能对比

    flink功能对比.png

    相关文章

      网友评论

          本文标题:04-flink VS spark VS strom

          本文链接:https://www.haomeiwen.com/subject/hzucyctx.html