美文网首页
如何解决机器学习中小数据集问题?

如何解决机器学习中小数据集问题?

作者: 刘小白DOER | 来源:发表于2022-04-29 22:14 被阅读0次

        今天遇到一个小需求,就是在小数据集上进行分类时,怎么才能提高模型的泛化能力呢?一般的机器学习算法都集中在具有大量数据集的场景中,大量的数据中,新的数据才有可能与大数据集相似。在机器学习中,数据获取成本很高,那么小数据集就有可能存在,小数据集带来的问题有哪些呢?

    1、过拟合,模型容易在训练集(training data)上出现过拟合的问题;

    2、异常值问题,在小数据集中也很难剔除异常值,数据量太少,统计功能无法识别到异常值;

    3、数据不平衡问题,虽然大数据集也有可能存在不平衡问题,但是小数据集的不平衡问题可能尤为严重。

        那么在小数据集上怎么实践呢?笔者有几点感想。

    1、分割原始数据。增加n倍于我们进入分类模型的数据量,是解决过拟合的一个方法。笔者的文章DNN深度神经网络完成音乐分类有关于切割音乐语音文件,可以大大提高分类准确度。

    2、增加噪声、偏移翻转原始数据。针对语音来说可以增加噪声,图片来说就可以偏移图片或者翻转图片来增加数据集。

    3、模型简单化。选择简单的模型来拟合训练集,减少模型复杂度,这样不太容易过拟合。

    4、迁移学习来帮助。传统的机器学习可能完成迁移,但是神经网络就可以使用别人预训练好的模型参数来再次训练,这样就可以得到比较理想的结果。但是数据集需要和预训练模型具有相同的数据输入格式,也需要进行数据统一处理。Pytorch完成alexnet迁移学习实践

    相关文章

      网友评论

          本文标题:如何解决机器学习中小数据集问题?

          本文链接:https://www.haomeiwen.com/subject/kgheyrtx.html