机器学习数据管道(Machine Learning Pipeline) Pipeline的概念,在很多机器学习的模...[作者空间]
在学习Spark的MLlib之前,我们简略的回忆整理一下机器学习的概念。 Machine Learning(机器学...[作者空间]
collect, collect_list, collect_set collect常用的有两个函数:collec...[作者空间]
UDF 为了满足用户的不同的分析需求,Spark允许使用者自己定义函数,供用户在Spark SQL中使用。例如数据...[作者空间]
Spark SQL为Spark提供了以下几个特性: 提供高级结构框架的API(见Learning Spark [3...[作者空间]
Catalyst Optimizers是Spark SQL的一个重要功能,他会将数据查询转换为执行计划。他分为四个...[作者空间]
RDD RDD是spark最基础的抽象类 其拥有以下几个特点: Dependencies(依赖) Partitio...[作者空间]
术语: Application(应用程序):用户使用API所构建的Spark程序,包含了Driver(驱动)和Ex...[作者空间]