美文网首页
关于SparkSQL中withColumn生成自增序列的一个坑

关于SparkSQL中withColumn生成自增序列的一个坑

作者: Edison_Tu | 来源:发表于2019-01-25 17:45 被阅读0次

多个分区情况下

首先我们创建一个RDD并设置分区数为2,然后转换成DataFrame,生成一列新的ID


image.png

然后我们看下生成的ID,可见同分区连续


image.png
一个分区情况下

我们使用coalesce方法将分区设置为1

image.png
接着,看看结果
image.png
所以,如果需要利用新生成的ID做一些操作的时候需要注意下分区情况,不然ID不会连续。

相关文章

网友评论

      本文标题:关于SparkSQL中withColumn生成自增序列的一个坑

      本文链接:https://www.haomeiwen.com/subject/cocvjqtx.html