美文网首页
统计学习————逻辑斯蒂回归

统计学习————逻辑斯蒂回归

作者: bcl_hx | 来源:发表于2019-12-21 21:30 被阅读0次

    逻辑斯谛回归(对数几率回归)是统计学习中的经典分类方法,已经成为流行病学和医学中常见的分析方法。它主要有下面三个用途:
    (1)寻找危险因素,例如寻找某一疾病的危险因素。
    (2)预测。如果已经建立logistic回归模型,可以根据模型,预测在不同自变量情况下,发生某病或某种情况的概率。
    (3)判别。判断某人属于某病或属于某种情况的概率有多大。

    1 逻辑斯谛分布与回归

    1.1 逻辑斯谛分布

    定义:设X为连续随机变量,若X服从逻辑斯谛分布,有:


    file

    F(x)与f(x)的图形如下,其分布函数F(x)是一条S型曲线,以(μ,1/2)中心对称,满足F(-x+μ)-1/2=-F(x+μ)+1/2


    file

    1.2 逻辑斯谛回归

    逻辑斯谛回归既可以看成回归也可以看成分类。

    1.2.1 回归

    逻辑斯谛回归将样本特征与样本发生概率联系起来,概率是数,可以称为回归。
    下图中左式利用一个函数计算p值,右式根据计算的p判断事件发生情况。

    file

    1.2.2分类

    也可以看成分类算法----做分类时主要解决二分类问题。

    file

    注:θ^T为参数,Xb为特征,w(i)为第i个特征的权重,b为截距。

    由于y的取值为(-∞,+∞),导致分类效果差(无限制)。下面引入sigmoid函数,使得y取值在(0,1)。

    file

    1.2.3 sigmoid函数

    函数形式:

    file

    图形:

    file

    引入sigmoid函数后,即保证p在(0,1):

    file file

    那么应该怎么才能找到θ使得能最大程度获得样本数据集x及其对应分类输出y呢?

    2 梯度下降求最佳θ

    2.1 损失函数

    损失函数:

    file

    损失函数图形:

    file

    总损失:

    file

    2.2 梯度下降法求最佳θ

    file

    前一项求导:

    file

    后一项求导:

    file

    一个:

    file

    m个:

    file

    梯度下降后即可求得最佳θ:

    file

    2 二项逻辑斯谛回归模型

    二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,X取实数,随机变量 Y 取值为 1或0;
    定义:

    file

    对于给定的输入示例x,按照上述两式,可以求得两个的概率,然后比较两个概率大小,把x分到概率大的那边。

    如果对权值向量和输入向量加以扩充,这时的回归模型如下:

    file

    如果事件发生概率为p,该事件的几率为p/(1-p),则该事件的对数几率或logit函数是:

    file

    带入上上面式子:

    file

    说明输出Y=1的对数几率是输入X的线性函数。

    可以通过定义把线性函数w.x转换为概率,此时线性函数值越接近+∞,概率值越接近1,越接近-∞,概率值越接近0。


    file

    本文由博客一文多发平台 OpenWrite 发布!

    相关文章

      网友评论

          本文标题:统计学习————逻辑斯蒂回归

          本文链接:https://www.haomeiwen.com/subject/lthnnctx.html