美文网首页
Spark新特性

Spark新特性

作者: clive0x | 来源:发表于2019-02-20 10:39 被阅读0次

    Spark目前使用2.2版本,今天看了下,最新版本2.4。

    2.4版本新特性:

    Support Barrier Scheduling in Apache Spark:

    Spark按数据边界划分Stage(如是否有数据shuffle等),单个Stage一个Job多个tasks,多个tasks按data location如block来划分,所以task间不会有依赖关系,只有隔离关系;

    本特性主要迎合MPI需求,tasks间有依赖时,可以像JAVA那样有Barrier来wait,如context.barrier() to wait。

    其它新特性:K8s集成,Scala2.12集成。

    Tensorflow在不开eager execution时,实现和Spark差不多,都是先构造Computation Graph,然后数据流经Graph处理,Spark batch 时一个RDD Iterator,Spark streaming时 mini batch Iterator,Tensor flow时一个batch tensor 构造成一个Matrix处理,tasks间没有依赖。

    2.3版本新特性:

    This release adds support for Continuous Processing in Structured Streaming along with a brand new Kubernetes Scheduler backend. 

    相关文章

      网友评论

          本文标题:Spark新特性

          本文链接:https://www.haomeiwen.com/subject/gfpcyqtx.html