通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
本文标题:spark parallelize
本文链接:https://www.haomeiwen.com/subject/mupdtxtx.html
网友评论