- spark操作时候,如果一个数据集需要反复的运算,则考虑将其导入进内存中,使得能够快速的运行。
//在使用缓存命令之前,需要导入一个包
import org.apache.spark.storage.StorageLevel
val x =sc.parallelize(List(1,2,3,4))
x.persist(StorageLevel.MEMORY_AND_DISK)
//默认缓存等级为:MEMORY_ONLY
//将缓存数据集从内存中释放
x.unpersist()
//在使用缓存命令之前,需要导入一个包
import org.apache.spark.storage.StorageLevel
val x =sc.parallelize(List(1,2,3,4))
x.persist(StorageLevel.MEMORY_AND_DISK)
//默认缓存等级为:MEMORY_ONLY
//将缓存数据集从内存中释放
x.unpersist()
本文标题:关于RDD缓存命令需要导入的包
本文链接:https://www.haomeiwen.com/subject/joyiqxtx.html
网友评论