Spark-task执行过程中的序列化

作者: 布莱安托 | 来源:发表于2020-07-07 14:47 被阅读0次

Spark-task执行过程中的序列化
CommonsCollections2反序列化漏洞研究记录
passportjs 源码序列化解析
redis2
Redis事务
redis事务
01给女朋友讲讲Redis-事务
Redis事务操作
JAVA反序列化漏洞
python 进程池异步调用与进程间通信

先看一个例子：

/*
  首先我们定义了一个Search对象，带有一个String类型的参数
  该类拥有三个成员方法：
  1）isMatch：判断参数字符串s是否包含子串query
  2）getMatchRdd1：使用isMatch方法获取匹配结果后的RDD
  3）getMatchRdd1：在filter中实现方法获取匹配结果后的RDD
 */

class Search(query: String) {
  def isMatch(s: String): Boolean = {
    s.contains(query)
  }

  def getMatchRdd1(rdd: RDD[String]): RDD[String] = {
    rdd.filter(isMatch)
  }

  def getMatchRdd2(rdd: RDD[String]): RDD[String] = {
    rdd.filter(_.contains(query))
  }

}

object SerializableDemo {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[4]").setAppName("SerializableDemo")
    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(Array("hello", "world", "hello", "spark"))

    val search = new Search("h")

    val matchRdd = search.getMatchRdd2(rdd)
    matchRdd.collect().foreach(println)

    sc.stop()

  }
}

运行后结果：

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner $.ensureSerializable(ClosureCleaner.scala:345) at org.apache.spark.util.ClosureCleaner$ .org $apache$ spark $util$ ClosureCleaner $clean(ClosureCleaner.scala:335) at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:159) at org.apache.spark.SparkContext.clean(SparkContext.scala:2299) at org.apache.spark.rdd.RDD$ anonfun $filter$ 1.apply(RDD.scala:388)
at org.apache.spark.rdd.RDD$$anonfun $filter$ 1.apply(RDD.scala:387)
at org.apache.spark.rdd.RDDOperationScope $.withScope(RDDOperationScope.scala:151) at org.apache.spark.rdd.RDDOperationScope$ .withScope(RDDOperationScope.scala:112)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
at org.apache.spark.rdd.RDD.filter(RDD.scala:387)
at adamlee.spark.Search.getMatchRdd2(SerializableDemo.scala:34)
at adamlee.spark.SerializableDemo$.main(SerializableDemo.scala:16)
at adamlee.spark.SerializableDemo.main(SerializableDemo.scala)
Caused by: java.io.NotSerializableException: adamlee.spark.Search
Serialization stack:

object not serializable (class: adamlee.spark.Search, value: adamlee.spark.Search@4cafa9aa)

field (class: adamlee.spark.Search$$anonfun $getMatchRdd2$ 1, name: $outer, type: class adamlee.spark.Search)

object (class adamlee.spark.Search$$anonfun $getMatchRdd2$ 1, <function1>)
at org.apache.spark.serializer.SerializationDebugger $.improveException(SerializationDebugger.scala:40) at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:46) at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100) at org.apache.spark.util.ClosureCleaner$ .ensureSerializable(ClosureCleaner.scala:342)
... 12 more

报错提示Task未能序列化，再看Caused By提示：object not serializable，告诉我们Search这个类的对象未能序列化。

原因就是search对象初始化是在Driver端进行的，当我们执行collect是，触发计算，Driver需要将任务下发至Executor，这时候就产生了进程间通信，Driver和Executor间通信是通过网络传输，网络上传输的是二进制的比特流，由于Search类并未继承Serializable类，所以这个类的对象就不能被序列化。

现在我们新建一个类Search1，继承了Serializable：

class Search1(query: String) extends Serializable {
  def isMatch(s: String): Boolean = {
    s.contains(query)
  }

  def getMatchRdd1(rdd: RDD[String]): RDD[String] = {
    rdd.filter(isMatch)
  }

  def getMatchRdd2(rdd: RDD[String]): RDD[String] = {
    rdd.filter(_.contains(query))
  }

}

object SerializableDemo {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[4]").setAppName("SerializableDemo")
    val sc = new SparkContext(conf)

    val rdd = sc.parallelize(Array("hello", "world", "hello", "spark"))

    val search1 = new Search1("h")

    val matchRdd = search1.getMatchRdd2(rdd)
    matchRdd.collect().foreach(println)

    sc.stop()

  }
}

运行后结果：

hello
hello

Spark-task执行过程中的序列化
先看一个例子：运行后结果： Exception in thread "main" org.apache.spar...
CommonsCollections2反序列化漏洞研究记录
反序列化漏洞四个重要方法 Java反序列化的过程中可以自动执行序列化类的四个方法，且反序列化的类必须实现了Seri...
passportjs 源码序列化解析
passport 的序列化解析源码通过自执行函数，注入0。每次循环执行之前压入的执行序列化函数 layer。分...
redis2
1 怎么理解Redis事务？事务是一个单独的隔离操作，事务中所有命令都会序列化，按顺序执行。事务在执行过程中不会...
Redis事务
Redis 事务本质：一组命令的集合！一个事务中的所有命令都会被序列化，在事务的执行过程中，会按照顺序执行！事务...
redis事务
1.简述 Redis事务是一个单独的隔离操作：事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中，不会被...
01给女朋友讲讲Redis-事务
一、Redis事务的本质一组命令的集合，一个事务中的所有命令都会被序列化，在事务执行过程中，会按照顺序执行。特...
Redis事务操作
事务 Redis事务的本质：一组命令集合，一个事务中的所有命令会被序列化，在事务执行过程中会按照顺序依次执行 Re...
JAVA反序列化漏洞
目录反序列化漏洞序列化和反序列化JAVA WEB中的序列化和反序列化对象序列化和反序列范例JAVA中执行系统命令...
python 进程池异步调用与进程间通信
1、类包含不能序列化的属性时，多进程异步执行失败执行上述代码时，多进程无法执行，因为A中包含了无法序列化的poo...