- 学习使用spark已经一年有余,接下来的时间准备陆续写一些文章,总结spark学习成果。
笔者也读过一些spark书籍,质量参差不齐,多少有些收获吧。在学习spark的伊始,让我们从最权威的官网开始,spark官网
- spark是啥?
Apache Spark™ is a unified analytics engine for large-scale data processing.
官网的解释:大数据处理的统一分析引擎
- spark的优势?
- 速度快;使用DAG(有向无环图)调度,查询优化和物理执行引擎,使得执行速度优于hadoop。
- 易于上手;可以使用java,scala,python,R语言进行spark程序编写,同时spark提供80余个算子供用户使用。
- 通用性;spark提供一系列的函数库,包括sparkCore(spark核心库),spark SQL(spark结构化数据模块),spark Streaming(分布式流数据处理模块),MLlib(机器学习库),GraphX(图并行计算库)等。
- 兼容性;spark可以在多种环境中执行,standalone,EC2,YARN等,并且可以访问多种数据源的数据,HDFS,HBase,Hive等。
-
quick start 快速入门
- 在学习spark之前,最好对hadoop生态圈有所了解,这样可以快速入门spark。
- 在spark 2.0之前,主要使用RDD(Resilient Distributed Dataset)进行编程,在2.0版本之后官方推荐使用Dataset数据集来代替RDD。Dataset和RDD一样都是强类型的,并且在RDD的基础上进行了优化,它比RDD的性能更好。
- 可以通过交互式shell操作spark,仅支持scala和python语言。
- 可以使用spark API来写一个独立的应用程序,支持(java,python,scala)语言,笔者在工作中多使用java语言,后续主要java程序进行演示。
- 写一个简单的spark应用程序,实现统计文本中出现字符'a','b'的行数。
/* SimpleApp.java */ import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.Dataset; public class SimpleApp { public static void main(String[] args) { String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system SparkSession spark = SparkSession.builder().appName("Simple Application").getOrCreate(); Dataset<String> logData = spark.read().textFile(logFile).cache(); long numAs = logData.filter(s -> s.contains("a")).count(); long numBs = logData.filter(s -> s.contains("b")).count(); System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs); spark.stop(); } }
- 在maven的pom.xml中引入spark依赖。
文件的目录结果如下,<project> <groupId>edu.berkeley</groupId> <artifactId>simple-project</artifactId> <modelVersion>4.0.0</modelVersion> <name>Simple Project</name> <packaging>jar</packaging> <version>1.0</version> <dependencies> <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>2.4.4</version> <scope>provided</scope> </dependency> </dependencies> </project>
3.打包应用程序,并执行。$ find . ./pom.xml ./src ./src/main ./src/main/java ./src/main/java/SimpleApp.java
# Package a JAR containing your application $ mvn package ... [INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar # Use spark-submit to run your application $ YOUR_SPARK_HOME/bin/spark-submit \ --class "SimpleApp" \ --master local[4] \ target/simple-project-1.0.jar ... Lines with a: 46, Lines with b: 23
本文初步介绍了spark,在最后给出了一个spark的例子,在完成例子前需要在电脑上安装spark环境。可以在 spark下载 界面下载需要版本的spark预编译包,解压并设置环境变量。 - 相关链接
网友评论