整体流程
需求分析
- 场景分析
确定结果字段
训练数据是否包含结果
有监督学习
离散:分类
算法增强(集成学习、增强学习、深度学习) - 数据收集
1.有哪些数据
2.得到数据的成本是否可以接受
3.需要哪些数据特征
4.数据量是否合适
5.数据是否具有代表性
6.数据是否需要标注 - 数据探查
1.数据基本分析
2.统计量分析
3.数据分布分析
概率分布、统计量、直方图、分布拟合检验。
4.相关性分析
5.周期性分析
6.数据对比分析 - 算法选择
数据预处理
- 数据清洗
- 数据集成
- 数据变换
1.使用简单函数进行变换
2.数据规范化
3.连续值离散化 - 数据规约
精简数据量、包括属性选择和数据抽样。
特征工程
基于原始数据创建新的特征的过程。
- 特征生成
- 特征变换
减少变量之间的相关性。
1.主成分分析PCA
2.因子分析FA
3.独立成分分析ICA
4.线性辨别分析LDA
5.线性辩别分析LDA
6.核方法KM
7.傅里叶变换 - 特征评估
1.过滤法
2.封装法 - 特征选择
模型训练及评估
算法建模
- 模型训练
使已有的数据输入到选定的模型(算法),调整其参数。 - 参数调优
- 交叉验证
将原始数据分组,一部分为训练集,另一部分为测试集 - 执行调优
模型评估
从不同的维度区评估模型
- 模型泛化
过拟合和欠拟合 - 分类评估
1.混淆矩阵
2.评估指标
3.ROC曲线
4.AUC
5.PRC曲线 - 聚类评估
- 回归评估
模型应用
- A/B测试
灰度发布 - 离线应用
- 在线应用
- 生命周期
网友评论