美文网首页
算法概述-02

算法概述-02

作者: Diamond1995 | 来源:发表于2019-04-01 20:56 被阅读0次

    1.逻辑回归和线性回归的联系和区别:

    逻辑回归和线性回归的都是广义的线性回归。

    线性回归是根据最小二乘法来建模,逻辑回归是根据最大似然来建模。

    线性回归是在整个实数范围内进行预测,敏感度一样,

    而逻辑回归是类似一种归一化,把预测值限定到【0,1】间的回归模型。

    相同点就是:都用梯度下降来进行最优参数求解,得到模型。

    2.逻辑回归的原理:

    一句话概括:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。

    逻辑回归是一个基于条件概率的判别模型。

    线性回归的结果通过一个函数sigmoid的映射得到逻辑回归。

    sigmoid函数

    3.逻辑回归的损失函数的推导以及优化

    我们通过最大似然函数推到目标函数:

    假设样本输出概率:

    合并上述两个式子:

    我们已知样本的条件概率,对于m个样本,求极大似然估计:

    取对数,好处是把乘法变成加法:

    取负数,把最大值转换为求最小值:

    常见的优化方法有:梯度下降法,坐标轴下降法,等牛顿法

    介绍梯度下降法:

    求函数的梯度,并初始化参数值和步长。通过不断迭代参数,得到极小值。

    4.正则化:

    逻辑回归也会有过拟合问题,常见的正则化为L1,L2正则。

    5.逻辑回归的优缺点:广泛而精巧

    优点:

    1.模型简单

    2.训练速度快

    3.资源占用小。

    4.方便输出结果调整,因为输出的是概率值,我们可以通过设定阈值来进行正负样本分类。

    逻辑回归广泛用于广告预测,垃圾分类,信用评估等。

    缺点:

    1.对比起SVM,Ada分类的准确度没有他们高。

    2.对于正负样本不均衡,很难取处理。

    3.在不引用其他方法的前提下,没法处理非线性数据和多分类。

    4.逻辑回归没法筛选重要特征。

    6.样本不均衡处理方法:

    可以从数据集角度处理:

    1.oversampling过采样:从少数类的样本中随机采样来添加新的样本。

    缺点是过拟合。

    解决方法:Easysemble

    :通过集成学习的方法,多次随机有放回的过采样样本集和少类样本集组成多个不同训练集,训练多个模型,通过最终结果的组合得到最终结果。

    2.undersampling欠采样:从多数类样本中随机选择少量样本相同的size和少量样本组成样本集。缺电:欠拟合。

    解决方法:SMOTE算法

    :对少数样本进行分析并人工合成新的样本添加进去,而不是下像之前的直接重复采样。

    算法步骤:

    7.sklearn参数

    相关文章

      网友评论

          本文标题:算法概述-02

          本文链接:https://www.haomeiwen.com/subject/almbbqtx.html