1.spark:分布式/流式数据处理,学习算法
2.数据处理:
RDD -> Resilient Distributed Datasets
转换 map, floatMap, groupByKey...
动作 count, collect, save...
3.学习算法
分类与回归 -> 监督式学习(带标签) 目标结果明确
线性回归
逻辑回归,多元逻辑回归
决策树
朴素贝叶斯,支持向量机,与随机森林
聚类 -> 无监督式学习(不带)
KMeans -> 指定中心点个数,随机选取中心点,计算各个点到中心点的距离,目标是使距离最小
高斯模糊 -> 计算正太分布,没有具体中心点,只有正太分布参数
协同过滤与推荐
降维
4.流程
数据源 - 获取 -> 训练数据 - 特征提取 -> 特征向量 features - 模型训练 -> 学习模型 - 预测数据 -> 结果prediction
5.关键点
- SparkSql -> 用Sql的方式获取/处理数据
- DataSet/DataFrame -> 高阶RDD
- Structured Streaming(可基于自定义时间的窗口) -> 高阶Spark Streaming(只能基于数据到达时间的窗口)
- DStream数据流只能有基于时间的窗口方法
- 所有DataSet的转换操作,框架会拆分成子任务分配的各个节点,所以要求转换函数里用到的当前类的属性或者变量可序列化
网友评论