美文网首页
武汉数道云,Spark Streaming实时流式数据处理,典型

武汉数道云,Spark Streaming实时流式数据处理,典型

作者: 数道云 | 来源:发表于2019-05-21 17:14 被阅读0次

    1. Spark Streaming

    Spark Streaming核对实时流式数据的处理具有可扩展性、高吞吐量、可容错性。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到Spark的机器学习算法、图处理算法中去。

    Spark Streaming实时流式数据处理

    Spark Streaming接收实时的输入数据流,然后将这些数据切分为批数据供Spark引擎处理,Spark引擎将数据生成最终的结果数据。

    Hadoop大数据

    Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用并行计算框架,Spark基于map reduce算法实现分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果是保存在内存中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

    Spark重要性:

    (1)Spark提供的框架能够实现高级分析,如:查询加速、机器学习算法、图形处理、流分析等等。

    (2)Spark实现快速、精准的数据分析方式。

    (3)Spark提供了不同层面的灵活性。

    (4)Spark借Hadoop之势,与Hadoop无缝结合;接着Shark(Spark上的数据仓库实现)借了Hive的势。

    2.Streaming流计算框架

    流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要数据形态,因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构,Amazon、Microsoft都已经推出了Event消息总线云服务平台,而facebook\twitter等更是将自己的流计算框架开源。

    Spark Streaming专门设计用于处理流式数据。通过Spark Streaming,可以快速地将数据分析处理环节,具有高的吞吐量、更快速的失败恢复。

    波若大数据计算服务平台(BR-ODP)支持的数据批处理引擎MapReduce、Tez和Spark,而对于实时的流式计算框架支持storm和spark streaming。大数据的成熟的资源管理框架支持YARN和MESOS,可以通过YARN进行资源管理的组件或者计算框架(Hive、Sqoop、Spark),BR-ODP以YARN为中心设计,提供业界最好的YARN支持以及YARN和整个Hadoop生态系统的结合。

    原文链接:http://www.sdydata.com/gsxw/info_itemid_125.html

    相关文章

      网友评论

          本文标题:武汉数道云,Spark Streaming实时流式数据处理,典型

          本文链接:https://www.haomeiwen.com/subject/drojzqtx.html