本章目的:设计机器学习系统的问题及建议
1. Lesson 93 确定执行的优先级
1. 垃圾邮件分类的思路,以及模型优化的选择问题
2. Lesson 94 误差分析
1. 目的:学习误差分析的概念
2. 内容:
1. 为解决一个应用最快速度搭建一个简单的机器学习系统,并画出学习曲线,来判断可能问题(高偏差问题or高方差问题or其他问题),再决定收集数据还是增加特征变量
2. 在快速实现之后,通过人为分析错误的分类或预测(误差分析),来进行分类或者找到相似的规则,并对第一版算法进行优化
3. 最好有一个数值指标对效果进行评估,不断加入新的想法进行测试并评估
3. Lesson 95 不对称性分类误差评估
1. 目的:不对称性分类(偏斜类)的概念与误差评估方法
2. 内容
1. 偏斜类是指正样本的比例非常低(比如样本数据中正样本比例只有0.5%,这个时候就算算法是1%的误差,也无法说明问题)
2. 偏斜问题用召回率(Recall 评估覆盖度)和查准率(Precision 评估准确性)两个指标进行评估辅助评估
3. 查准率=正确预测分类数量/预测正样本数量
4. 召回率=正确预测分类数量/实际正样本数量
4. Lesson 96 查准率率和召回率的权衡
1. 目的:如何选择平衡的查准率和召回率
2. 内容:
1. 根据置信度(临界值)的不同,可以得到不停的查准率(P)和召回率(R)(P和R成反比)
2. 通过F值判断 F_1 Score=2(PR)/(P+R) ,F值越大越好
5. Lesson 98 机器学习数据
1. 目的:说明数据训练集大小和特征变量的多少对算法效果有很大关系
网友评论