传送门
Spark实战系列之一--Spark是什么
Spark实战系列之二--什么是RDD以及RDD的常用API
Spark实战系列之三--RDD编程基础上
Spark实战系列之四--RDD编程基础下
Spark实战系列之五--键值对RDD
Spark实战系列之六--数据读写
Spark实战系列之七--综合案例
Spark基础系列之八--Spark SQL是什么
Spark基础系列之九--使用Spark SQL读写数据库
传送门
前言
使用Spark SQL读写数据库
法一:通过JDBC连接mysql数据库
法二:连接Hive读写数据
1)通过JDBC连接mysql数据库
2)连接Hive读写数据
概念简述:
- Hive是一个构建于Hadoop顶层的数据仓库工具
- 支持大规模数据存储、分析,具有良好的可扩展性
- 某种程度上可以看作是用户编程接口,本身不存储和处理数据
- 依赖分布式文件系统HDFS存储数据、依赖分布式并行计算模型MapReduce处理数据
- 定义了简单的类似SQL的查询语言----HiveQL
- 用户可以通过编写的HiveQL语句运行MapReduce任务
- 可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上
网友评论