美文网首页
spark操作mysql总结

spark操作mysql总结

作者: 京东徐小徐 | 来源:发表于2019-07-09 16:25 被阅读0次

1、Spark DataFrame写入mysql

DataFrame写入mysql就没什么可重点注意的了,这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作,以下展示的都是实际项目中的代码,把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致)

   Dataset<Row> resultDF = spark.sql("select hphm,clpp,clys,tgsj,kkbh from t_cltgxx where id in (" + id.split("_")[0] + "," + id.split("_")[1] + ")");
            resultDF.show();
            Dataset<Row> resultDF2 = resultDF.withColumn("jsbh", functions.lit(new Date().getTime()))
                    .withColumn("create_time", functions.lit(new Timestamp(new Date().getTime())));
            resultDF2.show();
            resultDF2.write()
                    .format("jdbc")
                    .option("url","jdbc:mysql://lin01.cniao5.com:3306/traffic?characterEncoding=UTF-8")
                    .option("dbtable","t_tpc_result")
                    .option("user","root")
                    .option("password","123456")
                    .mode(SaveMode.Append)
                    .save();

2、Spark RDD写入mysql

在RDD中调用foreach/foreachPartition,再建connection->prepare SQL->execute-> free connection,这个方法的好处是数据可以按需求处理了再update到表里,不一定需要用到整个DataFrame,代码如下:

import java.util.concurrent.atomic.AtomicInteger  
import org.apache.spark.SparkConf  
import org.apache.spark.streaming.{Seconds, StreamingContext}  
import org.apache.spark.streaming._ 
import org.apache.spark.streaming.StreamingContext._ 

object SparkStreamingForPartition {  
  def main(args: Array[String]) {  
    val conf = new SparkConf().setAppName("NetCatWordCount")  
    conf.setMaster("local[3]")  
    val ssc = new StreamingContext(conf, Seconds(5))   
    val dstream = ssc.socketTextStream("hadoopMaster", 9999).flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _)  
    dstream.foreachRDD(rdd => {  
      /**embedded function*/  
      def func(records: Iterator[(String,Int)]) {  
      /**Connect the mysql*/
        var conn: Connection = null 
        var stmt: PreparedStatement = null 
        try {  
          val url = "jdbc:mysql://hadoopMaster:3306/streaming";  
          val user = "root";  
          val password = "hadoop" 
          conn = DriverManager.getConnection(url, user, password)  
          records.foreach(word => {  
            val sql = "insert into wordcounts values (?,?)";  
            stmt = conn.prepareStatement(sql);  
            stmt.setString(1, word._1)  
            stmt.setInt(2, word._2)  
            stmt.executeUpdate();  
          })  
        } catch {  
          case e: Exception => e.printStackTrace()  
        } finally {  
          if (stmt != null) {  
            stmt.close()  
          }  
          if (conn != null) {  
            conn.close()  
          }  
        }  
      }   
      val repartitionedRDD = rdd.repartition(3)  
      repartitionedRDD.foreachPartition(func)  
    })  
    ssc.start()  
    ssc.awaitTermination()  
  }  
}

需要注意的点:foreachPartition和mapPartitions的区别
说明:foreachPartition属于action运算操作,而mapPartitions是在Transformation中,所以是转化操作,此外在应用场景上区别是mapPartitions可以获取返回值,继续在返回RDD上做其他的操作,而foreachPartition因为没有返回值并且是action操作,所以使用它一般都是在程序末尾比如说要落地数据到存储系统中如mysql,es,或者hbase中,可以用它。

当然在Transformation中也可以落地数据,但是它必须依赖action操作来触发它,因为Transformation操作是延迟执行的,如果没有任何action方法来触发,那么Transformation操作是不会被执行的,这一点需要注意。

一个foreachPartition例子:

val sparkConf=new SparkConf()
     val sc=new SparkContext(sparkConf)
      sparkConf.setAppName("spark demo example ")
    val rdd=sc.parallelize(Seq(1,2,3,4,5),3)
    
    rdd.foreachPartition(partiton=>{
      // partiton.size 不能执行这个方法,否则下面的foreach方法里面会没有数据,
      //因为iterator只能被执行一次
      partiton.foreach(line=>{
        //save(line)  落地数据
      })
 
    })

一个mapPartitions例子:

val sparkConf=new SparkConf()
     val sc=new SparkContext(sparkConf)
      sparkConf.setAppName("spark demo example ")
    val rdd=sc.parallelize(Seq(1,2,3,4,5),3)
 
    rdd.mapPartitions(partiton=>{
      //只能用map,不能用foreach,因为foreach没有返回值
      partiton.map(line=>{
        //save line
      }
      )
    })
 
    rdd.count()//需要action,来触发执行
    sc.stop()

相关文章

网友评论

      本文标题:spark操作mysql总结

      本文链接:https://www.haomeiwen.com/subject/rpzxkctx.html