机器学习笔记AN01--提高机器学习模型准确率的八大方法简单总结

作者: EL33 | 来源:发表于2019-04-03 15:26 被阅读0次

机器学习笔记AN--相关表
机器学习笔记AN01--提高机器学习模型准确率的八大方法简单总结
大师兄的Python机器学习笔记:数据重抽样
机器学习方法的三要素
Spark机器学习笔记
机器学习项目优化-第一周-吴恩达 Deep Learning S
lihungyi的ensemble learning intro
2019-02-17
[机器学习入门] 李宏毅机器学习笔记-25（Sturctured
机器学习笔记--决策树

annotation
英 [ˌænə'teɪʃn]
n. 注释

【非原创】，作者不明

1. 增加更多数据

2. 处理缺失值和异常值

对于连续变量，可以把缺失值替换成平均值、中位数、众数。对于分类变量，可以把变量作为一个特殊类别看待。你也可以建立模型预测缺失值。KNN 为处理缺失值提供了很好的方法。
异常值：你可以删除这些条目，进行转换，分箱。如同缺失值，你也可以对异常值进行区别对待。

3. 特征工程学

这一步骤有助于从现有数据中提取更多信息。新信息作为新特征被提取出来。这些特征可能会更好地解释训练集中的差异变化。因此能改善模型的准确率。

4. 特征选择

特征选择是寻找众多属性的哪个子集合，能够最好的解释目标变量与各个自变量的关系的过程。你可以根据多种标准选取有用的特征，例如：
所在领域知识：根据在此领域的经验，可以选出对目标变量有更大影响的变量。
可视化：正如这名字所示，可视化让变量间的关系可以被看见，使特征选择的过程更轻松。
统计参数：我们可以考虑 p 值，信息价值(information values)和其他统计参数来选择正确的参数。
PCA：这种方法有助于在低维空间表现训练集数据。这是一种降维技术。降低数据集维度还有许多方法：如因子分析、低方差、高相关、前向后向变量选择及其他。

5. 使用多种算法

使用正确的机器学习算法是获得更高准确率的理想方法

6. 算法的调整

例如，在随机森林中，我们有 max_features, number_trees, random_state, oob_score以及其他参数。优化这些参数值会带来更好更准确的模型。

7. 集成模型

在数据科学竞赛获胜方案中最常见的方法。这个技术就是把多个弱模型的结果组合在一起，获得更好的结果

8. 交叉验证

如果想解决这个问题，我们必须使用交叉验证技术(cross validation)。交叉验证是数据建模领域最重要的概念之一。它是指，保留一部分数据样本不用来训练模型，而是在完成模型前用来验证。

网友评论

本文标题：机器学习笔记AN01--提高机器学习模型准确率的八大方法简单总结

本文链接：https://www.haomeiwen.com/subject/wsrzbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！