美文网首页spark学习
spark学习(一)初识

spark学习(一)初识

作者: mumu_cola | 来源:发表于2019-10-26 23:44 被阅读0次
    • 学习使用spark已经一年有余,接下来的时间准备陆续写一些文章,总结spark学习成果。

    笔者也读过一些spark书籍,质量参差不齐,多少有些收获吧。在学习spark的伊始,让我们从最权威的官网开始,spark官网

    • spark是啥?

    Apache Spark™ is a unified analytics engine for large-scale data processing.
    官网的解释:大数据处理的统一分析引擎

    • spark的优势?
      • 速度快;使用DAG(有向无环图)调度,查询优化和物理执行引擎,使得执行速度优于hadoop。
      • 易于上手;可以使用java,scala,python,R语言进行spark程序编写,同时spark提供80余个算子供用户使用。
      • 通用性;spark提供一系列的函数库,包括sparkCore(spark核心库),spark SQL(spark结构化数据模块),spark Streaming(分布式流数据处理模块),MLlib(机器学习库),GraphX(图并行计算库)等。
      • 兼容性;spark可以在多种环境中执行,standaloneEC2YARN等,并且可以访问多种数据源的数据,HDFSHBaseHive等。
    • quick start 快速入门
      • 在学习spark之前,最好对hadoop生态圈有所了解,这样可以快速入门spark。
      • 在spark 2.0之前,主要使用RDD(Resilient Distributed Dataset)进行编程,在2.0版本之后官方推荐使用Dataset数据集来代替RDD。Dataset和RDD一样都是强类型的,并且在RDD的基础上进行了优化,它比RDD的性能更好。
      • 可以通过交互式shell操作spark,仅支持scala和python语言。
      • 可以使用spark API来写一个独立的应用程序,支持(java,python,scala)语言,笔者在工作中多使用java语言,后续主要java程序进行演示。
        1. 写一个简单的spark应用程序,实现统计文本中出现字符'a','b'的行数。
        /* SimpleApp.java */
        import org.apache.spark.sql.SparkSession;
        import org.apache.spark.sql.Dataset;
        
        public class SimpleApp {
          public static void main(String[] args) {
            String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system
            SparkSession spark = SparkSession.builder().appName("Simple Application").getOrCreate();
            Dataset<String> logData = spark.read().textFile(logFile).cache();
        
            long numAs = logData.filter(s -> s.contains("a")).count();
            long numBs = logData.filter(s -> s.contains("b")).count();
        
            System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);
        
            spark.stop();
          }
        }
        
        1. 在maven的pom.xml中引入spark依赖。
        <project>
          <groupId>edu.berkeley</groupId>
          <artifactId>simple-project</artifactId>
          <modelVersion>4.0.0</modelVersion>
          <name>Simple Project</name>
          <packaging>jar</packaging>
          <version>1.0</version>
          <dependencies>
            <dependency> <!-- Spark dependency -->
              <groupId>org.apache.spark</groupId>
              <artifactId>spark-sql_2.12</artifactId>
              <version>2.4.4</version>
              <scope>provided</scope>
            </dependency>
          </dependencies>
        </project>
        
        文件的目录结果如下,
        $ find .
        ./pom.xml
        ./src
        ./src/main
        ./src/main/java
        ./src/main/java/SimpleApp.java
        
        3.打包应用程序,并执行。
        # Package a JAR containing your application
        $ mvn package
        ...
        [INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar
        
        # Use spark-submit to run your application
        $ YOUR_SPARK_HOME/bin/spark-submit \
          --class "SimpleApp" \
          --master local[4] \
          target/simple-project-1.0.jar
        ...
        Lines with a: 46, Lines with b: 23
        
      写在后面
      本文初步介绍了spark,在最后给出了一个spark的例子,在完成例子前需要在电脑上安装spark环境。可以在 spark下载 界面下载需要版本的spark预编译包,解压并设置环境变量。
    • 相关链接

    相关文章

      网友评论

        本文标题:spark学习(一)初识

        本文链接:https://www.haomeiwen.com/subject/liiuvctx.html