如何解决机器学习中小数据集问题？

作者: 刘小白DOER | 来源:发表于2022-04-29 22:14 被阅读0次

今天遇到一个小需求，就是在小数据集上进行分类时，怎么才能提高模型的泛化能力呢？一般的机器学习算法都集中在具有大量数据集的场景中，大量的数据中，新的数据才有可能与大数据集相似。在机器学习中，数据获取成本很高，那么小数据集就有可能存在，小数据集带来的问题有哪些呢？

1、过拟合，模型容易在训练集(training data)上出现过拟合的问题；

2、异常值问题，在小数据集中也很难剔除异常值，数据量太少，统计功能无法识别到异常值；

3、数据不平衡问题，虽然大数据集也有可能存在不平衡问题，但是小数据集的不平衡问题可能尤为严重。

那么在小数据集上怎么实践呢？笔者有几点感想。

1、分割原始数据。增加n倍于我们进入分类模型的数据量，是解决过拟合的一个方法。笔者的文章DNN深度神经网络完成音乐分类有关于切割音乐语音文件，可以大大提高分类准确度。

2、增加噪声、偏移翻转原始数据。针对语音来说可以增加噪声，图片来说就可以偏移图片或者翻转图片来增加数据集。

3、模型简单化。选择简单的模型来拟合训练集，减少模型复杂度，这样不太容易过拟合。

4、迁移学习来帮助。传统的机器学习可能完成迁移，但是神经网络就可以使用别人预训练好的模型参数来再次训练，这样就可以得到比较理想的结果。但是数据集需要和预训练模型具有相同的数据输入格式，也需要进行数据统一处理。Pytorch完成alexnet迁移学习实践

网友评论

本文标题：如何解决机器学习中小数据集问题？

本文链接：https://www.haomeiwen.com/subject/kgheyrtx.html

如何解决机器学习中小数据集问题？