美文网首页flink
02-flink 数据集

02-flink 数据集

作者: 当当一丢丢 | 来源:发表于2020-02-17 12:33 被阅读0次

数据集分类

数据以一条条形式出现,然后经过存储、转化形成一种数据集的状态,根据数据的产生方式,我们把形成的数据集分为两种

  1. 有界数据集-数据的产生有始有终、界限分明
  2. 无界数据集-数据的产生永不停歇、源源不断

有界数据集

  • 存在时间边界,比如周三当天产生的bug数
  • 有界数据集的处理对应批处理-batch processing
    • 批处理过程:从RDMS或者文件取出数据->分布式系统进行数据处理->在存储到RDMS活着文件
  • 批处理系统
    • hadoop
    • spark

无界数据集

  • 源源不断产生,比如百度网页的访问量,服务器的日志
  • 无界数据集的处理对应流处理-stream processing
  • 复杂度
    • 时间先后
    • 容错
  • 流处理系统
    • storm
    • spark streaming
    • flink

无界、有界数据集转化

  • 有界无界是相对的
  • 无界数据集可以划分成有界数据集,如按每天划分
  • 有界数据集可以以无界数据集形式处理,比如一天数据按每条发送到流处理系统

spark、flink对比

  • spark 无界、有界数据集-以批的形式统一处理
  • flink 无界、有界数据集-以流的形式统一处理
  • 两者的处理思路不同而已
image.png

相关文章

网友评论

    本文标题:02-flink 数据集

    本文链接:https://www.haomeiwen.com/subject/jurbfhtx.html