spark学习（一）初识

作者: mumu_cola | 来源:发表于2019-10-26 23:44 被阅读0次

spark学习一初识、编译、安装
spark学习（一）初识
【Spark学习笔记】初识spark
spark初识一
spark(一. 初识)
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中
初识spark
Spark初识
初识spark

学习使用spark已经一年有余，接下来的时间准备陆续写一些文章，总结spark学习成果。

笔者也读过一些spark书籍，质量参差不齐，多少有些收获吧。在学习spark的伊始，让我们从最权威的官网开始，spark官网

spark是啥?

Apache Spark™ is a unified analytics engine for large-scale data processing.
官网的解释：大数据处理的统一分析引擎

spark的优势?
- 速度快；使用DAG（有向无环图）调度，查询优化和物理执行引擎，使得执行速度优于hadoop。
- 易于上手；可以使用java，scala，python，R语言进行spark程序编写，同时spark提供80余个算子供用户使用。
- 通用性；spark提供一系列的函数库，包括sparkCore(spark核心库)，spark SQL(spark结构化数据模块)，spark Streaming(分布式流数据处理模块)，MLlib(机器学习库)，GraphX(图并行计算库)等。
- 兼容性；spark可以在多种环境中执行，standalone，EC2，YARN等，并且可以访问多种数据源的数据，HDFS，HBase，Hive等。

quick start 快速入门

在学习spark之前，最好对hadoop生态圈有所了解，这样可以快速入门spark。
在spark 2.0之前，主要使用RDD(Resilient Distributed Dataset)进行编程，在2.0版本之后官方推荐使用Dataset数据集来代替RDD。Dataset和RDD一样都是强类型的，并且在RDD的基础上进行了优化，它比RDD的性能更好。
可以通过交互式shell操作spark，仅支持scala和python语言。

可以使用spark API来写一个独立的应用程序,支持(java，python，scala)语言，笔者在工作中多使用java语言，后续主要java程序进行演示。

写一个简单的spark应用程序，实现统计文本中出现字符'a'，'b'的行数。

/* SimpleApp.java */
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;

public class SimpleApp {
  public static void main(String[] args) {
    String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system
    SparkSession spark = SparkSession.builder().appName("Simple Application").getOrCreate();
    Dataset<String> logData = spark.read().textFile(logFile).cache();

    long numAs = logData.filter(s -> s.contains("a")).count();
    long numBs = logData.filter(s -> s.contains("b")).count();

    System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

    spark.stop();
  }
}

在maven的pom.xml中引入spark依赖。

<project>
  <groupId>edu.berkeley</groupId>
  <artifactId>simple-project</artifactId>
  <modelVersion>4.0.0</modelVersion>
  <name>Simple Project</name>
  <packaging>jar</packaging>
  <version>1.0</version>
  <dependencies>
    <dependency> <!-- Spark dependency -->
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.12</artifactId>
      <version>2.4.4</version>
      <scope>provided</scope>
    </dependency>
  </dependencies>
</project>

文件的目录结果如下，

$ find .
./pom.xml
./src
./src/main
./src/main/java
./src/main/java/SimpleApp.java

3.打包应用程序，并执行。

# Package a JAR containing your application
$ mvn package
...
[INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar

# Use spark-submit to run your application
$ YOUR_SPARK_HOME/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/simple-project-1.0.jar
...
Lines with a: 46, Lines with b: 23

写在后面
本文初步介绍了spark，在最后给出了一个spark的例子，在完成例子前需要在电脑上安装spark环境。可以在 spark下载界面下载需要版本的spark预编译包，解压并设置环境变量。