机器学习常见问题

作者: 潇萧之炎 | 来源:发表于2019-05-26 14:09 被阅读0次

1.损失函数

机器学习中损失函数：
线性回归使用的就是最小平方和损失函数、Logistic回归使用的交叉熵损失函数....
深度学习中一般情况下：
回归的应用：最小平方和损失函数，分类的应用：交叉熵损失函数

1.扩展的其它的线性回归算法

多项式线性回归、Lasso、Ridge、Elastic Net

多项式线性回归
因为在线性回归中，是假定特征属性x和目标属性y之间存在的映射关系是线性关系，但是在实际的业务数据上，x和y之间的关系有可能不是属于线性关系的，所以直接使用线性回归来做模型效果就不太好。解决方案：多项式线性回归。
可以考虑先将低维空间上的数据映射到高维空间中，让样本数据变的更加的离散，从而让数据变成线性数据，然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式：多项式扩展+线性回归)

欠拟合
问题描述：模型没有提取出训练数据集上的数据特性，从而导致训练出来的模型在训练数据集上的效果都不佳。

产生的原因：

模型的学习能力太弱
数据集不适合当前模型
数据集中的样本数目太少
解决方案：

换一种强学习能力的模型
使用集成学习的思想来训练模型
进行数据的特征工程，将数据变化为适合当前模型的形式
增加数据的特征属性或者增加数据的样本量
eg: 如何使用线性模型对非线性的数据做一个训练？？？

多项式线性回归：可以考虑先将低维空间上的数据映射到高维空间中，让样本数据变的更加的离散，从而让数据变成线性数据，然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式：多项式扩展+线性回归)

过拟合
问题描述：模型从训练数据中学习了太多的训练数据特征信息，有可能将一些噪音的异常数据特征也学到了，从而导致模型在测试数据或者生产数据上效果不佳，但是在训练数据集上效果不错。

产生的原因：

模型的学习能力太强
数据集中的样本数目太少
数据中的噪音异常样本比较多
解决方案

限制模型的学习能力(加入正则化项/加入惩罚项)

L1 norm

在线性回归中，也就是Lasso算法；比较容易导致模型参数稀疏化，比较适合特征选择
L2 norm

在线性回归中，也就是Ridge算法；算法效果比较稳定
更改一下模型超参数，降低一下学习能力

更改模型，使用学习能力弱一点的模型

使用集成算法

增加样本数据量

删除一些无用的特征属性(降低一些噪音特征属性的影响)，同时增加一些有效特征属性

网友评论

本文标题：机器学习常见问题

本文链接：https://www.haomeiwen.com/subject/hlbxtctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

机器学习常见问题

1.损失函数

1.扩展的其它的线性回归算法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读