Java Spark 简单示例（七） RDD分区分区划分器

作者: 憨人Zoe | 来源:发表于2018-09-27 15:21 被阅读0次

Java Spark 简单示例（七） RDD分区分区划分器
Spark中repartition和coalesce的用法
spark中如何划分stage（面试）
Spark RDD分区策略
Spark算子：统计RDD分区中的元素及数量
RDD or DF获取分区编号和数据
spark task partition 并行度线程
Spark快速大数据分析之RDD基础
Spark-RDD分区器
Spark菜鸟的进阶之路之RDD编程一

更多RDD的信息参考：https://www.cnblogs.com/qingyunzong/p/8899715.html

分区

在Spark程序中，RDD是由SparkContext上下文生成的，一个数据源只能生成一个RDD对象（流处理场景中，指定多个消息源可以生成多个RDD，存在DStream中）。

RDD（Resilient Distributed Dataset）是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

分区（Partition），即数据集的基本组成单位。对于RDD来说，每个分区都会被一个计算任务Task处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分区个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目（取决于运行环境）。如果是从HDFS中创建，默认为文件的数据块数。

分区划分器

Spark默认提供两种划分器：哈希分区划分器（HashPartitioner）和范围分区划分器（RangePartitioner）,且Partitioner只存在（K, V）类型的RDD中，对于非(K, V)类型的Partitioner值为None。

//从test.txt 构建rdd
JavaRDD<String> rdd = sc.textFile("test.txt");
System.out.println("初始分区划分器：" + rdd.partitioner().toString());

输出：初始分区划分器：Optional.empty

HashPartitioner 是默认分区划分器，他的原理是对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID。但HashPartitioner易造成分区内数据不均匀（跟key的分布息息相关）。

RangePartitioner分区划分器可以解决数据分布不均匀问题，他能保证分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大，但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。

groupByKey()默认采用哈希分区划分器，当然也可以手动指定分区划分器（包括自定义分区划分器）

pairRDD.groupByKey(4); //默认哈希分区划分器，并指定分区数=4
OR
pairRDD.groupByKey(new HashPartitioner(4)); //指定哈希分区划分器，并指定分区数=4

对<K,V>结构的RDD，还可以手动使用分区划分器，使用partitionBy(Partitioner partitioner)函数

JavaPairRDD<String, Iterable<Integer>> groupRDD = pairRDD.groupByKey();
System.out.println("partitionBy前初始分区划分器：" + groupRDD.partitioner().toString());
groupRDD.partitionBy(new HashPartitioner(3)); //手动使用分区划分器
System.out.println("partitionBy后初始分区划分器：" + groupRDD.partitioner().toString());

请注意：如果rdd当前分区划分器与partitionBy指定的划分器相同，则不再进行分区划分，因此上述代码输出为

partitionBy前初始分区划分器：Optional[org.apache.spark.HashPartitioner@4]
partitionBy后初始分区划分器：Optional[org.apache.spark.HashPartitioner@4]

为了证明partitionBy指定HashPartitioner分区器没有生效，我们改变一下分区数，并打印

JavaPairRDD<String, Iterable<Integer>> groupRDD = pairRDD.groupByKey(2); //指定分区数2
System.out.println("partitionBy前分区数：" + groupRDD.getNumPartitions());
groupRDD.partitionBy(new HashPartitioner(4)); //指定分区数4
System.out.println("partitionBy后分区数：" + groupRDD.getNumPartitions());
输出：
partitionBy前分区数：2
partitionBy后分区数：2

指定分区的方法

并行化创建（创建rdd时指定）。指定生成n个分区的rdd

// 构造数据源
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
//并行化创建rdd
JavaRDD<Integer> rdd = sc.parallelize(data,n);

文件中创建（创建rdd时指定）。指定生成n个分区的rdd

//从test.txt 构建rdd
JavaRDD<String> rdd = sc.textFile("test.txt",n);

shuffle时指定。指定shuffle后新的rdd的分区数（n在最后）

JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
        public Integer call(Integer integer, Integer integer2) throws Exception {
            return integer + integer2;
        }
},n);

指定默认配置。请注意：此方式仅对shuffle后的rdd有效。即如果没有在创建rdd时指定分区数，该配置不会修改初始rdd的分区数，但是对shuffle后的新rdd有效。

补充：我之前有个疑问就是如果不指定分区，shuffle前和shuffle后的分区是不是变化的，经过本地测试，答案是会变化。

conf.set("spark.default.parallelism","n");

本地模式。貌似也只对并行化创建rdd有效，本地demo设置local[*]，打印从文件中创建的rdd分区数结果是2。这种方式不用太在意，本地只是测试用。

new SparkConf().setMaster(local[n]); //n 表示具体的分区数
或
new SparkConf().setMaster(local[*]); //*表示使用cpu core 数

脚本模式。没研究

Spark-shell --conf <key>=<value>
Spark-submit --conf <key>=<value>

综上
建议直接在操作rdd的函数中指定分区数，不仅优先级最高，而且保证准确性。

网友评论

本文标题：Java Spark 简单示例（七） RDD分区分区划分器

本文链接：https://www.haomeiwen.com/subject/nmueoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Java Spark 简单示例（七） RDD分区分区划分器

分区

分区划分器

指定分区的方法

相关文章