mapPartitions 使用

作者: 枫隐_5f5f | 来源:发表于2019-06-18 09:23 被阅读0次

mapPartitions 使用
spark第一天
【Spark Java API】Transformation(1
mapPartitions
Spark Core 性能调优总结
spark之旅-2.spark 算子 python
2020-11-24-Spark-3(Spark-Core)
map 和 mapPartitions
Spark-算子-transerformation
Spark学习（六）：map & mapPartitions

Spark中的map函数是将每个rdd都进行自定义函数处理
mapPartitions则是将多个rdd进行分区，对每个分区内部的rdd进行自定义函数的处理

mapPartitions常用于需要多次加载外部文件的情况下，若此时仍然使用map函数那么对于每条记录都需要进行文件读取加载，比较费时费性能

示例

from pyspark.sql import SparkSession
from pyspark import SparkConf,SparkContext

def map_func(row):
    print ("====")
    re = row*2
    return re

def mapPartition_func(part):
    print ("====")
    for row in part:
        re = row*2
        yield re
    return re

conf = SparkConf().setAppName("test")
sc = SparkContext(conf=conf)

a = sc.parallelize([1,2,3,4,5],5)
re = a.map(map_func)
for line in re.collect():
    print (line)

re = a.mapPartitions(mapPartition_func)
for line in re.collect():
    print (line)

网友评论

本文标题：mapPartitions 使用

本文链接：https://www.haomeiwen.com/subject/xulxqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

mapPartitions 使用

相关文章

mapPartitions 使用

spark第一天

【Spark Java API】Transformation(1

mapPartitions

Spark Core 性能调优总结

spark之旅-2.spark 算子 python

2020-11-24-Spark-3(Spark-Core)

map 和 mapPartitions

Spark-算子-transerformation

Spark学习（六）：map & mapPartitions

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读