美文网首页
机器学习常见问题

机器学习常见问题

作者: 潇萧之炎 | 来源:发表于2019-05-26 14:09 被阅读0次

    1.损失函数

    机器学习中损失函数:
    线性回归使用的就是最小平方和损失函数、Logistic回归使用的交叉熵损失函数....
    深度学习中一般情况下:
    回归的应用:最小平方和损失函数,分类的应用:交叉熵损失函数

    1.扩展的其它的线性回归算法

    多项式线性回归、Lasso、Ridge、Elastic Net

    多项式线性回归
    因为在线性回归中,是假定特征属性x和目标属性y之间存在的映射关系是线性关系,但是在实际的业务数据上,x和y之间的关系有可能不是属于线性关系的,所以直接使用线性回归来做模型效果就不太好。解决方案:多项式线性回归。
    可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

    1. 欠拟合
      问题描述:模型没有提取出训练数据集上的数据特性,从而导致训练出来的模型在训练数据集上的效果都不佳。

    产生的原因:

    模型的学习能力太弱
    数据集不适合当前模型
    数据集中的样本数目太少
    解决方案:

    换一种强学习能力的模型
    使用集成学习的思想来训练模型
    进行数据的特征工程,将数据变化为适合当前模型的形式
    增加数据的特征属性或者增加数据的样本量
    eg: 如何使用线性模型对非线性的数据做一个训练???

    多项式线性回归:可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

    1. 过拟合
      问题描述:模型从训练数据中学习了太多的训练数据特征信息,有可能将一些噪音的异常数据特征也学到了,从而导致模型在测试数据或者生产数据上效果不佳,但是在训练数据集上效果不错。

    产生的原因:

    模型的学习能力太强
    数据集中的样本数目太少
    数据中的噪音异常样本比较多
    解决方案

    限制模型的学习能力(加入正则化项/加入惩罚项)

    L1 norm

    在线性回归中,也就是Lasso算法;比较容易导致模型参数稀疏化,比较适合特征选择
    L2 norm

    在线性回归中,也就是Ridge算法;算法效果比较稳定
    更改一下模型超参数,降低一下学习能力

    更改模型,使用学习能力弱一点的模型

    使用集成算法

    增加样本数据量

    删除一些无用的特征属性(降低一些噪音特征属性的影响),同时增加一些有效特征属性

    相关文章

      网友评论

          本文标题:机器学习常见问题

          本文链接:https://www.haomeiwen.com/subject/hlbxtctx.html