机器学习入门基础之模型篇-----回归

作者: Amanda_569b | 来源:发表于2018-01-24 07:05 被阅读12次

2019-10-29
机器学习入门基础之模型篇-----回归
逻辑回归
机器学习入门——实战篇之强化学习
机器学习入门——实战篇之非监督学习
机器学习入门——实战篇之深度学习
机器学习入门——实战篇之监督学习
机器学习入门——基础
[回归] 线性回归 Linear Regression
sigmoid function为什么是1/{1+exp(-z)

分类，打分，排名和概率预测这些机器学习研究的标签空间是离散的类集合。但是函数估计器，也叫做回归(regression)，是研究真的价值目标变量，是映射 f:x--R, 也可以表示成 (xi, f(xi)),是研究输出预测连续的数值。回归一般用多项式来表示回归函数，多项式的次数越多就越容易过拟合，所以应该选取简单的多项式。毕竟回归研究的是整体数据的趋势，不是要把所有的数据都预测准确。数据一般会有噪音，也就是不准确的信息。

图一

图一可以看出,红线是直线，是一次多项式, 基本把数据趋势描述出来了。黄线是二次多项式也描述出了数据趋势。蓝线次数最高，几乎把所有点都包含在输出结果上，这样在训练集合上拟合过于完美，很可能在测试集合 (新数据)上会可能造成输出错误的结果，这叫做过拟合。我们可以从模型的参数个数来判断是否是过拟合问题。有个原则是为了避免过拟合。参数的数量要少于数据点的个数。 n次多项式有 n+1 个参数, 比如直线 y=ax+b有两个参数。再如上图有五个点，参数要少于5。用直线最简单，最好。

回归有很多应用，比如典型的根据房屋的地理，大小等条件来预测房屋的价格。通过训练集得到线性模型，也就是多项式，再用这个多项式来预测测试集。所以，如果数据集合和要研究的问题符合线性回归，我们就应该尽量选择简单的多项式来表达这个趋势。