美文网首页
Spark--基于分区进行操作

Spark--基于分区进行操作

作者: LuciferTM | 来源:发表于2016-04-25 16:54 被阅读1014次

基于分区进行操作

场景

Spark提供了map操作,map操作是对每一个元素进行函数操作。但是如果需求中有分配操作(比如获取数据库链接)此时就没有必要为每一个元素进行重复的分配工作。此时可以使用mapPartitions(),mapPartitionsWithIndex(),foreachPartitions()操作每一个分区。

mapPartitions()

数据库链接池


pic-1.png

有时需要创建一个对象来将不同类型的值聚合起来,比如求平均值:

pic-2.png

mapPartitionsWithIndex()

对于mapPartitionsWithIndex与mapPartitions的区别是处理的函数中多一个index值表示数据所在的分区号。

相关文章

  • Spark--基于分区进行操作

    基于分区进行操作 场景 Spark提供了map操作,map操作是对每一个元素进行函数操作。但是如果需求中有分配操作...

  • Spark性能优化:基于分区进行操作

    我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartition...

  • LVM扩展分区教程

    分区操作有风险,操作之前务必备份重要数据 1、原分区信息 2、 进行磁盘分区 如果是新增磁盘,则将新磁盘分区即可,...

  • 在线重建分区表的分区索引

    有时分区表的分区进行了数据交换,导致分区索引变为不可用,这时需要我们对此进行重建。 对此,我们需要进行如下操作: ...

  • partitionBy (通过分区器进行分区)

    作用:对pairRDD进行分区操作,通过指定的分区器决定数据计算的分区,spark默认使用的分区器是HashPar...

  • MySQL对数据表已有表进行分区表

    操作方式 @1 可以使用ALTER TABLE来进行更改表为分区表,这个操作会创建一个分区表,然后自动进行数据co...

  • 高性能MySQL第七章 读书笔记

    第七章 MySQL的高级特性 分区操作时,可以只针对某个区进行操作,而且在底层文件系统中的表现,分区是多个表文件,...

  • 树莓派硬盘挂载

    开始分区格式化一切准备就绪后,我们进行对硬盘的分区、格式化操作。这里我们采用linux下的 GPT(GUID)分区...

  • Linux 卸载分区

    注意,卸载分区会格式化分区内所有的数据,请谨慎操作或进行数据备份 卸载/dev/sda6分区此时注意/dev/sd...

  • Manjaro(linux)下挂载硬盘

    以root用户执行以下所有操作 1. 查看硬盘信息 2. 进入磁盘,对磁盘进行分区 删除旧分区 打开fdisk系统...

网友评论

      本文标题:Spark--基于分区进行操作

      本文链接:https://www.haomeiwen.com/subject/lijnlttx.html