Spark目前使用2.2版本,今天看了下,最新版本2.4。
2.4版本新特性:
Support Barrier Scheduling in Apache Spark:
Spark按数据边界划分Stage(如是否有数据shuffle等),单个Stage一个Job多个tasks,多个tasks按data location如block来划分,所以task间不会有依赖关系,只有隔离关系;
本特性主要迎合MPI需求,tasks间有依赖时,可以像JAVA那样有Barrier来wait,如context.barrier() to wait。
其它新特性:K8s集成,Scala2.12集成。
Tensorflow在不开eager execution时,实现和Spark差不多,都是先构造Computation Graph,然后数据流经Graph处理,Spark batch 时一个RDD Iterator,Spark streaming时 mini batch Iterator,Tensor flow时一个batch tensor 构造成一个Matrix处理,tasks间没有依赖。
2.3版本新特性:
This release adds support for Continuous Processing in Structured Streaming along with a brand new Kubernetes Scheduler backend.
网友评论