spark+mongodb大数据框架搭建

作者: Alukar | 来源:发表于2018-05-09 20:01 被阅读65次

spark依赖环境

    1. jdk 1.8

    2. scala 2.11

    3. hadoop 2.7(本文用mongodb取代Hadoop HDFS,不需要安装)

安装JDK

  略。。

安装Scala

   Scala官网地址:http://www.scala-lang.org

    选择2.11版本下载

解压:

tar -zxf scala-2.11.11.tgz

配置环境变量:

vim /etc/profile

使配置生效:

   source /etc/profile

验证是否安装成功:

   scala -version

安装spark

   spark 下载地址: http://spark.apache.org/downloads.html

这里可以看到spark默认构建于Scala2.11,依赖Hadoop2.7

安装过程与Scala类似,解压缩:

   tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

配置环境变量:

配置spark:

   进入spark安装目录conf, 执行命令:

      1. cp spark-env.sh.template  spark-env.sh

      2. vim spark-env.sh

   在文件最后加入jdk, scala环境变量

启动spark:

    进入spark安装目录sbin,执行命令:

        ./start-all.sh

验证:

 安装mongodb

    略..

mongo-spark

 文本使用mongo官方的mongo-spark连接器,连接spark、mongodb。

 mongo-spark github地址: https://github.com/mongodb/mongo-spark?jmp=hero。

   mongo-spark使用非常简单,使用时将mongo-spark包引入即可。下面使用spark-shell测试连接是否成功。

spark连接mongodb

  进入spark安装目录bin, 执行以下命令:

spark-shell

--conf "spark.mongodb.input.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin"//mongodb数据源

--conf "spark.mongodb.output.uri=mongodb://localhost:27017/dbName.collectionName?authSource=admin"//使用mongodb保存分析后的数据

--packages org.mongodb.spark:mongo-spark-connector_2.10:2.2.0 //引入mongo-spark包

使用mongo-spark查询数据:

import com.mongodb.spark._

import org.bson.Document

MongoSpark.load(sc).take(10).foreach(println)

成功返回数据,说明spark连接mongodb成功。

本文到此结束。后续将继续研究基于spark+mongodb架构的大数据分析。

学习大数据的朋友可以来大数据交流群:724693112 群里免费大数据学习视频和资料给大家,欢迎大家进去交流学习,大家一起学习一起进步!一个好的学习氛围,能让你的学习不再那么枯燥,也能让你学习中少踩一些坑。

相关文章

网友评论

    本文标题:spark+mongodb大数据框架搭建

    本文链接:https://www.haomeiwen.com/subject/lgvorftx.html