美文网首页
LR回归&最大熵模型

LR回归&最大熵模型

作者: Mr_Stark的小提莫 | 来源:发表于2019-09-30 13:21 被阅读0次

    对数线性模型:LR模型、最大熵模型。

    LR(Logistic Regression)模型

    logistic分布

    X是连续随机变量,具有下列分布和密度函数:

    F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu )/\gamma }}

    f(x)=\frac{e^{-(x-\mu )/\gamma }}{\gamma(1+e^{-(x-\mu )/\gamma })^{2}}  注:f(x)是F(x)关于x的导数函数((u/v)'=(u'v-uv')/v²)。

    分布图像如下所示:

    LR密度和分布函数

    LR函数即F(x)分布函数,即Sigmoid曲线,F(x)\in (0,1),关于(\mu ,\frac{1}{2} )点中心对称f(-x)-1/2=-f(x)+1/2。

    二项LR模型

    一种分类模型,由条件概率分布P(Y|X)表示,随机变量X取值为实数,随机变量Y取值1/0,通过监督学习进行分类。二项LR模型是如下的条件概率分布。

    P(Y=1|X)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)} \\P(Y=0|X)=\frac{1}{1+exp(w\cdot x+b)}

    注:w是权值向量,b为偏置,wx为内积。

    对于X,求P(Y=1|X)和P(Y=0|X),取大的概率,得到Y值1/0。为了方便,将b写作w0,X0=1,公式变为:

    P(Y=1|X)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)} \\P(Y=0|X)=\frac{1}{1+exp(w\cdot x)}

    几率(odds):某事件发生的概率与不发生的概率的比值\frac{p}{1-p}

    对数几率logit:log\frac{p}{1-p}=log\frac{P(Y=1|X)}{P(Y=0|X)} =w\cdot x

    综上,在LR模型中,输出Y=1的对数几率是x的线形函数。w\cdot x值越接近正无穷,概率P(Y=1|X)越接近1;w\cdot x值越接近负无穷,概率P(Y=1|X)越接近0。

    模型参数估计

    注:MLE(Maximum Likelihood Estimate)如下——

    MLE

    P(Y=1|X)=\pi (x),似然函数:

    \prod_{i=1}^N [\pi (x_{i})]^{y_{i}}[1-\pi (x_{i})]^{1-y_{i}}

    对数似然函数:

    L(w)=\sum_{I=1}^N [y_{i}log\pi (x_{I})+(1-y_{I})log(1-\pi(x_{i}))]=\sum_{i=1}^N [y_{I}log\frac {\pi(x_{i})}{1-\pi (x_{i})}+log(1-\pi(x_{i}))]=\sum_{i=1}^{N} [y_{I}(w\cdot x_{I})-log(1+exp(w \cdot x_{i}))]

    求L(w)的极大值,得到w的估计值。

    学习方法一般为梯度下降法或拟牛顿法。

    多项LR

    假设离散型随机变量Y的取值集合{1,2,……,K},则多项LR模型是:

    P(Y=k|x)=\frac{exp(w_{k}\cdot x)}{1+\sum_{k=1}^{K}exp(w_{k}\cdot x)}

    其参数估计法与二项相同。

    最大熵模型

    最大熵原理

    设离散随机变量X的概率分布P(X),则熵H(P)=-\sum_{x} P(x)*logP(X),满足0\leq H(P)\leq log|X|。注:|X|为x可能取值的个数,当分布均匀时,熵最大,即不确定性最大。

    最大熵原理——对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

    相关文章

      网友评论

          本文标题:LR回归&最大熵模型

          本文链接:https://www.haomeiwen.com/subject/iifjyctx.html