对数线性模型:LR模型、最大熵模型。
LR(Logistic Regression)模型
logistic分布
X是连续随机变量,具有下列分布和密度函数:
注:f(x)是F(x)关于x的导数函数((u/v)'=(u'v-uv')/v²)。
分布图像如下所示:
LR密度和分布函数LR函数即F(x)分布函数,即Sigmoid曲线,,关于点中心对称f(-x)-1/2=-f(x)+1/2。
二项LR模型
一种分类模型,由条件概率分布P(Y|X)表示,随机变量X取值为实数,随机变量Y取值1/0,通过监督学习进行分类。二项LR模型是如下的条件概率分布。
注:w是权值向量,b为偏置,wx为内积。
对于X,求P(Y=1|X)和P(Y=0|X),取大的概率,得到Y值1/0。为了方便,将b写作w0,X0=1,公式变为:
几率(odds):某事件发生的概率与不发生的概率的比值
对数几率logit:
综上,在LR模型中,输出Y=1的对数几率是x的线形函数。值越接近正无穷,概率P(Y=1|X)越接近1;值越接近负无穷,概率P(Y=1|X)越接近0。
模型参数估计
注:MLE(Maximum Likelihood Estimate)如下——
MLE设,似然函数:
对数似然函数:
求L(w)的极大值,得到w的估计值。
学习方法一般为梯度下降法或拟牛顿法。
多项LR
假设离散型随机变量Y的取值集合{1,2,……,K},则多项LR模型是:
其参数估计法与二项相同。
最大熵模型
最大熵原理
设离散随机变量X的概率分布P(X),则熵,满足。注:|X|为x可能取值的个数,当分布均匀时,熵最大,即不确定性最大。
最大熵原理——对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。
网友评论