2.3 监督学习的步骤
2.3.1 数据
(1) 数据收集
- 获取数据及其对应标签
- 将数据集划分为训练数据集和验证数据集
- 考虑样本不均衡的问题,并基于此使用交叉验证的方法
(2) 数据预处理
- 去除错误数据和标签缺失的数据
- 数据增强
(3) 特征工程
- 传统机器学习方法中对特征进行选择、组合和优化
- 深度学习,使用深度神经网络对数据的特征进行自动提取
准确性和实时性、存储空间的要求需要重点考虑。
2.3.2 模型和损失函数
(1) 构建预测模型
- 机器学习10大算法
- 最近研究的新型神经网络)
(2) 损失函数
针对具体问题,使用不同的损失函数。损失函数的作用在于指导模型的优化方向。
2.3.3 优化算法
(1) 模型训练
- 初始化
- 正则化
- 权值优化
- 批处理SGD
- SGD
- mini batch SGD
- 遗传算法
- 模拟退火算法
(2) 模型选择
- 根据验证集的测试结果来调整模型参数继续训练
- 交叉验证
- k-fold验证
2.3.4 测试应用
- 将预测模型发布为API接口
- 在软件中调用该API
- 在实际应用场景中进行测试,如果有问题,针对问题进行数据处理和模型调整。
网友评论