美文网首页
[監督式]Logistic Regression(邏輯回歸)

[監督式]Logistic Regression(邏輯回歸)

作者: RJ阿杰 | 来源:发表于2018-11-10 00:12 被阅读0次

回顧分類問題

Logistic Regression

可分為3個部分,1.定義Function set,2.定義Loss function,3.做Gradient Descent。

Function Set

這邊我們先以二元分類來說明。

  • 定義假設函數
    Gradient Descent一樣,我們需要定義一個hypothesis set,hypothesis set是可能產生我們手上資料的函數集合。
    在之前分類問題中有講到,分類問題的機率可以用機率分佈推得,然而這樣的概念可以延伸到Logistic Regression。
    注意:x^j_i表示第j筆資料的第i個特徵。

邏輯回歸與線性回歸hypothesis set之差異

Loss Function

  • 定義L(loss function)

N:樣本數。
P_{w,b}(C_1|x):特徵x確定時,\hat{y}=C_1=1的機率。
P_{w,b}(C_2|x):特徵x確定時,\hat{y}=C_2=0的機率。
假設C_1資料由P_{w,b}(C_1|x)=P_{w,b}(\hat{y}=1|x)=f_{w,b}(x)=\sigma\left(\sum_{i=1}^{N}w_ix_i+b\right)這個機率分佈所產生的,C_2資料=P_{w,b}(\hat{y}=0|x)=f_{w,b}(x)

L(w,b)就是由這些數據點產生P_{w,b}(\hat{y}|x)的機率,因為每個數據點獨立所以等於由每個數據點產生\hat{y}(f_{w,b}(x^1)、f_{w,b}(x^2)、(1-f_{w,b}(x^3))...)機率的乘積。
我們要找到某個(w,b)使L這個機率最大,就是求斜率等於零(函數的最高點或最低點),找到的這個(w,b)就是P(x|C_1)(w,b)
注意:因為x^3C_2,所以x^3產生C_2的機率為(1-f_{w,b}(x^3))f_{w,b}(x^3)x^3產生C_1的機率。

  • 求最大值轉換為求最小值
    左右同乘(-ln),L(w,b)越大,-ln\left(L(w,b) \right)就越小,所以需要求-ln\left( L(w,b) \right)最小值。

  • 二項分佈與hypothesis set之關係
    二項分佈
    二項分佈當n=1時,就是白努力分佈。所以C(n,x)永遠等於1,這邊圖一的x就是\hat{y}
    \hat{y}等於白努力分佈成功X次(0\ge\hat{y}\le1),p=p(x)=f_{w,b}(x)q=q(x)=1-f_{w,b}(x)
    所以出現\hat{y}次成功的機率為:p(\hat{y}|x)=p(x)^{\hat{y}} \cdot q^{1- \hat{y}}= f_{w,b}(x)^{\hat{y}} \cdot (1-f_{w,b}(x))^{1-\hat{y}}

圖一
  1. -ln(p(\hat{y}|x))
    -ln(p(\hat{y}|x)) = -ln(f_{w,b}(x)^{\hat{y}} \cdot q^{1- \hat{y}})
    =-[ln(f_{w,b}(x)^{\hat{y}}) + ln((1-f_{w,b}(x))^{1-\hat{y}})]
    =-[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]
  2. -ln(f_{w,b}(x))由圖三可證明:
    -ln(f_{w,b}(x)) = -ln(p(\hat{y}=1|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))],\hat{y}代入1
    -ln(1-f_{w,b}(x)) = -ln(p(\hat{y}=0|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))],\hat{y}代入0
    所以可以推得:
    -ln(L(w,b)) = \sum_{j=1}^{N}-[\hat{y}^jln(f_{w,b}(x^j)) + (1-\hat{y}^j)ln(1-f_{w,b}(x^j))]
    =-ln(\prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right))(∏為所有數值的乘積)
    結論:L(w,b) = \prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right)
圖二 圖三
  • Cross entropy(交叉熵)概念
    Cross entropy相關文章。

  • Cross-Entropy(交叉熵)形式
    實際的機率分佈(\hat{y})與我們找到的機率分佈(f_{w,b}(x))的Cross-Entropy的公式為:H(\hat{y}||f_{w,b}(x)) = \sum_{c=1}^{2}\hat{y}\left(c\right) \cdot \log_e\left(\frac{1}{f_{w,b}(x)\left(c\right)}\right) = -\sum_{c=1}^{2}\hat{y}\left(c\right) \cdot \log_e\left({f_{w,b}(x)\left(c\right)}\right)
    p_1= P_{w,b}(x)_1,這是實際上產生C的function,它與p_2有不同的p(x)
    [c=1,p_1=\hat{y}], [c=0,p_1=1-\hat{y}]
    p_2 = P_{w,b}(x)_2,這是我們找到的產生C的Function,它與p_1有不同的p(x)
    [c=1,p_2=f_{w,b}(x)],[c=0,p_2=1-f_{w,b}(x)]
    代入cross entropy後得-[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]
    注意:\hat{y}為機率分佈,\hat{y}^j為機率
    結論:
    -ln(L(w,b))就是在求兩個P_{w,b}(x)實際的機率分佈(\hat{y})與我們找到的機率分佈(f_{w,b}(x))的Cross entropy,Cross entropy 越小表示找到的function與實際越接近。
    所以我們可以直接定義Loss function為L(f)=\sum_{j=1}^{N}Cross entropy(f(x),\hat{y})

邏輯回歸與線性回歸loss function之差異

最佳的hypothesis

  • 對Loss function(L(f))做Gradient Descent找最小值。
  • cross entropy與square error差異
    square error再距離目標很遠時,比較平坦,更新速度慢,cross entropy再距離目標很遠時很陡峭,更新速度快。

Discriminative v.s. Generative

  • Discriminative 比較 Generative
    假設有一個分佈為\sigma(w,b)去定義Loss Function這方法稱為Discriminative ,而分類問題那篇我們使用假設高斯分佈去推測機率的方法稱為Generative。
    然而他們找出來的答案不會是一樣的,Generative我們假設資料是高斯分佈,而Discriminative 我們假設資料為任何機率分佈,通常Discriminative model會比Generative
    model表現得更好 。
    當資料少的時候,有時候加一些假設或許會有比較好的結果。

多類別分類(Multi-class Classification)

我們有3個類的時候,我們想像成求3個二元分類問題。
m個樣本、n個特徵、K個類別,\theta^T=w^T,將x多一個全為1的特徵,b換成w_0

  • Softmax
    Softmax函數:將值映射成0~1之間的值,所有值之和等於1
    Softmax([z_1,z_2,z_3])=\left[\frac{e^{z_1} }{\sum_{j=1}^{3}e^{z_j}},\frac{e^{z_2} }{\sum_{j=1}^{3}e^{z_j}},\frac{e^{z_3} }{\sum_{j=1}^{3}e^{z_j}}\right] = function set

  • Softmax的Hypothesis and Loss function and gradient
    I\left\{ y^i=j \right\},如果\left\{ y^i=j \right\}成立,則I=1,否則I=0

Hypothesis Loss function Gradient

Logistic Regression的限制

Logistic Regression無法做非線性分類,需要使用Neural Network,或手動作特徵轉換。

參考李宏毅老師ML課程

相关文章

网友评论

      本文标题:[監督式]Logistic Regression(邏輯回歸)

      本文链接:https://www.haomeiwen.com/subject/mvdvxqtx.html