1. 什么是机器学习流水线
模型训练只是机器学习整个过程中很小的一部分。
数据科学家们在整个机器学习的过程中要花费大量的时间在数据清洗,转换和准备数据集。
上面讲的整个过程称为机器学习流水线。
流水新中的每一步产生的输出为下一步提供输入。
其中的每一步可以帮助我们获得更好的结果和更清晰的数据。
2. 机器学习流水线的主要步骤
2-1) 问题定义(Problem Definition)
定义商业问题
2-2) 数据摄取(Data Ingestion)
识别和采集数据集
2-3) 数据准备(Data Preparation)
处理和准备数据
1. 归纳缺失值
2. 删除重复记录
3. 数据统一规范化
4. 新的数据清洗和映射
5. 完成特征抽取
6. 消除关联特征
7. 执行特征工程
2-4) 数据隔离(Data Segregation)
将数据分为训练集,验证集,测试集
2-5) 模型训练(Model Training)
通过训练集来训练机器学习模型。
这部分是整个数据科学的核心部分。
2-6) 模型评估(Candidate Model Evaluation)
通过测试和验证数据集来测量模型的准确性。
2-7) 模型发布(Model Deployment)
将模型发布到生产环境。
2-8) 性能监控(Performance Monitoring)
持续监控模型性能。
采集新的数据以不断优化模型,防止模型失效或过期。

网友评论