这是一个工程上在用的可视化数据智能平台的功能结构,可以作为入门机器学习所需掌握的知识体系。
一、源目标
1、读取Hive数据
2、写入Hive数据
二、数据预处理
1、数据合并
join
合并列
合并行
缺失值处理
2、采样过滤
分层采样
加权采样
过滤映射
随机采样
3、增加列
4、拆分
5、标准化
6、类型转换
7、自增id
三、统计分析
1、全表统计
2、协方差
3、单样本T检测
4、卡方拟合性检验
5、卡方独立性检验
6、双样本T检验
7、散点图
8、正态校验
9、洛伦茨曲线
10、百分位
11、皮尔逊系数
12、直方图
13、相关系数矩阵
14、离散值特征分析
15、箱线图
四、特征工程
1、特征选择
过滤式特征选择
2、特征变换
OneHot编码
PCA模型
特征异常检验
特征离散
类别特征编码
3、重要性评估
特征重要性过滤
随机森林特征重要性
4、特征生成
特征交叉
特征多项式展开
5、特征尺度变换
6、特征异常平滑
五、机器学习
1、二分类
GBDT模型
GBDT自动调参
LR模型
LR自动调参
SVM模型
SVM自动调参
XGBoost模型
XGBoost自动调参
随机森林模型
随机森林自动调参
2、多分类
LR模型
决策树模型
决策树自动调参
朴素贝叶斯模型
朴素贝叶斯自动调参
随机森林模型
随机森林自动调参
3、推荐
协同过滤
4、聚类
GMM模型
GMM模型自动调参
Kmeans聚类
Kmeans聚类自动调参
5、评估
二分类评估
回归评估
多分类评估
混淆矩阵
6、回归
GBDT模型
GBDT自动调参
决策树模型
决策树自动调参
线性回归模型
线性回归自动调参
随机森林模型
随机森林自动调参
7、模型预测
六、工具
1、SQL脚本
网友评论