https://zhuanlan.zhihu.com/p/110268967
https://blog.csdn.net/dreamfantacy/article/details/102686275
一、广义线性模型
普通线性模型对数据有着诸多限制,真实数据并不总能满足。而广义线性模型正是克服了很多普通线性模型的限制。
广义线性模型的三个要素:
线性预测
随机性
联系函数
1. 线性预测
不管是普通线性模型,还是广义线性模型,「线性」指的是多个自变量的「线性组合」对模型预测产生贡献,也叫做线性预测,它具有类似于下面的形式:

β0、β1、β2等是模型的参数
统计模型使用线性预测使得β0、β1、β2这些参数改变的值与预测的结果的改变值成正比,这样才能有效地找到最佳参数。
2. 随机性
统计模型是怎样从具有随机性的数据中找到自变量和因变量之间的关系的呢?
原因在于是测量随机误差也是有规律的。
误差的分布很大程度上决定了使用什么模型。
普通线性模型中的方差不随自变量x取值的变化而变化。
误差项ε满足正态分布
正态分布描述的是一个连续变量的分布, 当因变量y是类别变量或是计数变量这样的非连续变量时 ,误差项的方差会随着x的变化而变化的时候,普通线性模型就不够用了。
3. 联系函数
它是一个关于因变量y的函数,它把前面说到的线性预测的结果与因变量y的值之间建立一座桥梁。

上面罗列的理由只能说明这些联系函数使用起来比较方便,但并非是说它们是唯一合法的联系函数。
新的联系函数形式可能很复杂,但是功能不外乎是让y的取值范围与预测值范围一致,以及让模型比较好地拟合当下的数据。

二、分类问题
二分类问题就是给定的输入s ,判断它的标签是A类还是B类。二分类问题是最简单的分类问题。我们可以把多分类问题转化成一组二分类问题。
三、如何用连续的数值去预测离散的标签值呢?
- 设定一个阈值,比如0,如果我们预测的数值 y > 0 ,那么属于标签A,反之属于标签B
- 预测标签为A概率,概率是一个[0,1]区间的连续数值,输出的数值就是标签为A的概率。一般的如果标签为A的概率大于0.5,我们就认为它是A类,否则就是B类。
四、逻辑回归(logistics regression)
概率属于[0,1]区间,线性模型值域是( − ∞ , + ∞ )
不能直接基于线性模型建模。需要找到一个模型的值域刚好在[0,1]区间,选择了我们的sigmoid函数:

把线性回归模型的输出作为sigmoid函数的输入。于是最后就变成了逻辑回归模型:

利用一组采集到的真实样本,训练出参数w的值 。把需要预测的x代入到上面的方程,输出的y值就是这个标签为A的概率,就能够判断输入数据是属于哪个类别。
五、损失函数(Loss Function)
采集到了一个样本( x i , y i ) 对这个样本,它的标签是yi 的概率
(当y = 1,结果是p;当y = 0 ,结果是1 − p )

合事件发生的总概率

损失函数可以理解成衡量我们当前的模型的输出结果,跟实际的输出结果之间的差距的一种函数

找到一个w ,使得损失函数J ( w ) 取得最小值
梯度:
一维的标量x,有导数。对一个多维的向量来说,它的导数叫做梯度,也就是分别对于它的每个分量求导数

网友评论