多个分区情况下
首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID

然后我们看下生成的ID,可见同分区连续

一个分区情况下
我们使用coalesce方法将分区设置为1

接着,看看结果

所以,如果需要利用新生成的ID做一些操作的时候需要注意下分区情况,不然ID不会连续。
首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID
然后我们看下生成的ID,可见同分区连续
我们使用coalesce方法将分区设置为1
本文标题:关于SparkSQL中withColumn生成自增序列的一个坑
本文链接:https://www.haomeiwen.com/subject/cocvjqtx.html
网友评论