Spark 本地连接OSS

作者: k_wzzc | 来源:发表于2019-10-28 22:14 被阅读0次

Spark 本地连接OSS
Severless SQL on OSS 实验（DataLake
CarbonData Carbon Thrift Server集
Spark开发之连接OSS
更改MAC地址
2019-12-23,python连接mongdb
2019-08-11
Vue element-ui 上传至oss
aliyun OSS服务.md
vue 前端上传文件到ali-oss

Spark 本地连接OSS

1. 对象存储 OSS

阿里云对象存储服务（Object Storage Service，简称 OSS），是阿里云提供的海量、安全、低成本、高可靠的云存储服务。
在使用Hadoop和Spark及其周边系统来处理和分析自己的数据时，则需要创建阿里云的E-MapReduce集群进行处理。

但是有时候，我们需要在本地环境下对程序进行调试，所以本地的Spark环境能连接OSS对于开发者来说就显得尤为重要。

阿里云提供的文档更新比较久远，在使用教程时，会出现一些问题，所以本文提供一个可行的方法，让我们可以在本地环境读取OSS的数据，进行程序调试。

Maven配置

可以根据自己的版本进行相应修改

        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.8</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.3</version>
        </dependency>

        <!--支持OSS数据源 -->
        <dependency>
            <groupId>com.aliyun.emr</groupId>
            <artifactId>emr-core</artifactId>
            <version>1.5.0</version>
        </dependency>
 
        <dependency>
        <groupId>com.aliyun.oss</groupId>
        <artifactId>aliyun-sdk-oss</artifactId>
        <version>3.4.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpcore</artifactId>
            <version>4.4</version>
        </dependency>

        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.4.1</version>
        </dependency>

代码部分

  val conf = new SparkConf()
      .setAppName("OssWc")
      .setMaster("local[4]")

    conf.set("spark.hadoop.fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem")
    conf.set("spark.hadoop.mapreduce.job.run-local", "true")
    conf.set("spark.hadoop.fs.oss.accessKeyId", "accessKeyId")
    conf.set("spark.hadoop.fs.oss.accessKeySecret", "accessKeySecret")
    

    
    val sc = new SparkContext(conf)

    val input = sc.textFile(inputPath) // 路径格式 oss://bucket.Endpoint/datapath

    println(input.count())

注意

显式写 AK 和 Endpoint 方式访问 OSS 数据源时：

1.spark需要配置 "spark.hadoop.fs.oss.accessKeyId" 和 "spark.hadoop.fs.oss.accessKeySecret"两个参数

2.spark.hadoop.mapreduce.job.run-local 这个配置项只是针对需要在本地调试 Spark 代码读写 OSS 数据的场景，除此之外只需要保持默认即可。在本地调试运行 Spark 代码读写 OSS 数据，将 spark.hadoop.mapreduce.job.run-local设为 true

3.读取oss的数据路径的格式如下：oss://bucket.Endpoint/datapath
Endpoint 具体请参见OSS Endpoint

4.使用sparksql 读取数据的配置方式和上述一样

参考资料

https://help.aliyun.com/document_detail/28118.html?spm=a2c4g.11186623.6.808.36ad4132jjB0lE
https://help.aliyun.com/document_detail/31837.html?spm=a2c4g.11186623.2.11.66cd1aa1e2KPyg#concept-zt4-cvy-5db