在我们执行Spark应用程序的时候,序列化技术的好坏也影响着程序的性能。Spark默认的序列化技术是Java基于ObjectInputStream和ObjectOutputStream的序列化机制。只要你的类实现了Serializable接口,都可以被序列化。同时Java提供了自定义的序列化支持,通过实现Externalizable接口,就可以实现自己的序列化算法。可以看到,这种序列化机制非常的便捷,但是,它缺陷在于序列化速度慢,序列化后的数据占用的内存比较大。
因此,当我们想要提高应用程序的性能时,可以使用另一种序列化机制,Kyro序列化机制。这种机制不仅比Java的序列化机制更快,而且占用的空间比Java的要小10倍。但是,这种方式并不一定能够序列化所有实现了Serializable接口的类,而且,还要在程序中对要序列化的类的类型进行注册。
如果要使用Kryo序列化机制,要掉用SparkConf的set方法设置参数spark.serializer
为org.apache.spark.serializer.KryoSerializer
。
注意:
- 如果要序列化的类本身比较大的话,为了防止Kryo内部的缓存不够存放class对象,我们可以通过调用SparkConf的set方法来设置spark.kryoserializable.buffer.mb的值。
- 预先注册好要序列化的自定义类,能够减少内存的消耗。
网友评论