Spark-PySpark 广播文件

作者: yunpiao | 来源:发表于2018-07-21 20:44 被阅读23次

目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录
声明, 由于spark发展日新月异, 在网上查看好多博客,都没说明spark版本, 做了不少弯路.本文记录的是Spark2.3.0版本的使用方法.

addPyFile(path)
为所有将在SparkContext上执行的任务添加一个a.py或者.zip的附件。这里path 参数可以使本地文件也可以使在HDFS中的文件,也可以是HTTP、HTTPS或者FTP URI。

addFile(path, recursive=False)
使用在每个节点上的Spark job添加文件下载。这里path 参数可以使本地文件也可以使在HDFS中的文件,也可以是HTTP、HTTPS或者URI。

# 讲model文件夹传到各个节点
sc = spark.sparkContext
sc.addFile("tools/",recursive=True)
sc.addFile("rule_set/",recursive=True)

在Spark的job中访问文件,使用L{SparkFiles.get(fileName)<pyspark.files.SparkFiles.get>}可以找到下载位置。

相关文章

  • Spark-PySpark 广播文件

    目前项目需要,将使用Spark进行数据的统计和分析, 现对pyspark进行详细记录声明, 由于spark发展日新...

  • Spark-pyspark

    pyspark介绍 pyspark是Spark官方提供的API接口,同时pyspark也是Spark中的一个程序。...

  • 2019-11-22

    一、广播分类: 二、广播涉及源文件:(待编辑) PackageManagerService 三、广播注册: 1.静...

  • 四大组建-Broadcast

    广播 1.广播的动态注册 清单文件权限申请 2.发送标准广播 3.接收本地广播 广播实现强制下线

  • 安卓四大组件之BroadCastReceiver

    简介BroadCastReceiver 广播分为两种:无序广播,有序广播 在清单文件中注册广播称之为静态注册 在代...

  • 组件之BroadcastReceiver详解

    一、BroadcastReceiver解析 (1)广播注册使用 (2)动态注册广播 (3)在配置文件中静态注册广播...

  • 动态广播和静态广播的区别

    动态广播是在代码里注册的,静态广播是在AndroidManifest.xml(清单文件)中注册的。 动态广播优先级...

  • Android设备6.0获取u盘挂载广播

    一,清单文件静态注册广播 二,在广播中通过VolumeInfo判断挂载过程和卸载过程

  • 广播接收者

    广播接收者 常驻(静态)广播接收者: 特点:一直存在 使用:在清单文件中注册 动态广播接收者 特点:生...

  • 面试完BAT几家公司,Android中高级面试笔记整理出炉!

    广播 注册方式: 1、静态注册 ,在Manifest文件的application节点中配置广播接收者 2、动态注册...

网友评论

    本文标题:Spark-PySpark 广播文件

    本文链接:https://www.haomeiwen.com/subject/nwtqkftx.html