一、二分类问题
背景:用一个函数拟合二分类问题。最直观的是阶跃函数,但缺点:0值不可导,因此要连续可微函数 sigmoid。
sigmoid函数的作用:
- 线性回归预测值域是实数域,逻辑回归限制预测范围在[0,1]
-
逻辑回归在0附近是敏感的,模型更关注分类边界,因此增强模型鲁棒性
回归问题变成分类问题。
sigmoid函数图像
二、LR的假设
- 数据服从伯努利分布,样本正类概率p,负类1-p
- 正类概率是sigmoid函数计算的
三、LR相关的问题
1.LR主要解决什么问题?目的?
LR假设数据服从伯努利分布,通过极大化似然函数,运用梯度下降求解参数,达到将数据二分类的目的。
2.LR的推导
l(w,b)=Σ ln p(y_i|x_i;w,b)
l'(w) = ... l'(b)=...
3.为什么要用极大似然函数做损失函数?交叉熵损失函数 VS MSE
- 从公式上看,MSE不是严格凸函数。
- 前者更新速度稳定,避免梯度消失。 MSE求偏导时,有一项因子是w,在初始化时w很小的时候,容易梯度消失。
概念:极大似然估计w,b -- 所有样本出现的概率最大化 ->交叉熵损失函数
4. LR如何应对多分类?
(1) OVO
缺点: 分类器更多,C(n,2)个分类器
集成方法:投票机制,3个投类1,2个投类2,最后预测为类1
(2) OVR
N个分类器
集成方法:各个分类器中,选择预测概率最大的类
(3) Softmax
公式:Softmax
5.线性回归和逻辑回归的区别?
- 解决的问题,线性回归是回归问题、连续值;
- 损失函数,最小二乘法,MSE;极大似然估计法,交叉熵损失函数
6. 如何解决过拟合现象?
- 增加正则化:
- L1正则:模型参数服务0均值 拉普拉斯分布;倾向于参数更稀疏
- L2正则:模型参数服务0均值 正态分布;
7. LR为什么要对特征进行离散化
1.离散后对异常值更具鲁棒性
2.离散化后,相当于非线性,还可以进行特征交叉(同样是引入非线性),提升表达能力
8. LR特征稀疏的绝对值不一定是特征的重要性
- 特征的尺度变化的话,系数的绝对值会变
- 特征是线性相关的话,系数就会转移。
9. 遇到梯度下降,一般都需要归一化
10.逻辑回归和MLP的关系?
隐层到输出层 = 多类别的逻辑回归
网友评论