1.逻辑回归和线性回归的联系和区别:
逻辑回归和线性回归的都是广义的线性回归。
线性回归是根据最小二乘法来建模,逻辑回归是根据最大似然来建模。
线性回归是在整个实数范围内进行预测,敏感度一样,
而逻辑回归是类似一种归一化,把预测值限定到【0,1】间的回归模型。
相同点就是:都用梯度下降来进行最优参数求解,得到模型。
2.逻辑回归的原理:
一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。
逻辑回归是一个基于条件概率的判别模型。
线性回归的结果通过一个函数sigmoid的映射得到逻辑回归。
sigmoid函数3.逻辑回归的损失函数的推导以及优化
我们通过最大似然函数推到目标函数:
假设样本输出概率:
合并上述两个式子:
我们已知样本的条件概率,对于m个样本,求极大似然估计:
取对数,好处是把乘法变成加法:
取负数,把最大值转换为求最小值:
常见的优化方法有:梯度下降法,坐标轴下降法,等牛顿法
介绍梯度下降法:
求函数的梯度,并初始化参数值和步长。通过不断迭代参数,得到极小值。
4.正则化:
逻辑回归也会有过拟合问题,常见的正则化为L1,L2正则。
5.逻辑回归的优缺点:广泛而精巧
优点:
1.模型简单
2.训练速度快
3.资源占用小。
4.方便输出结果调整,因为输出的是概率值,我们可以通过设定阈值来进行正负样本分类。
逻辑回归广泛用于广告预测,垃圾分类,信用评估等。
缺点:
1.对比起SVM,Ada分类的准确度没有他们高。
2.对于正负样本不均衡,很难取处理。
3.在不引用其他方法的前提下,没法处理非线性数据和多分类。
4.逻辑回归没法筛选重要特征。
6.样本不均衡处理方法:
可以从数据集角度处理:
1.oversampling过采样:从少数类的样本中随机采样来添加新的样本。
缺点是过拟合。
解决方法:Easysemble
:通过集成学习的方法,多次随机有放回的过采样样本集和少类样本集组成多个不同训练集,训练多个模型,通过最终结果的组合得到最终结果。
2.undersampling欠采样:从多数类样本中随机选择少量样本相同的size和少量样本组成样本集。缺电:欠拟合。
解决方法:SMOTE算法
:对少数样本进行分析并人工合成新的样本添加进去,而不是下像之前的直接重复采样。
算法步骤:
7.sklearn参数
网友评论