[監督式]分類

作者: RJ阿杰 | 来源:发表于2018-11-07 13:45 被阅读0次

[監督式]分類
[監督式]貝氏分類器(Naive Bayes classifie
[監督式、非監督]KNN、K-mean
[監督式]GradientDescent介绍
[監督式]Ensemble learning
朋友，說好的日更呢
[監督式]PLA(Perceptron Learning Alg
[監督式]SVM(Support Vector Machines
[監督式]seq2seq
通证需要监管

從上篇GradientDescent延伸，這次要處理的是分類問題，從數據特徵中推斷是屬於哪一類別的標籤，例如:從身高、體重、肝指數等特徵判斷是幾年級的學生，或從遊戲HP、MP、ATK、DP判斷人物的等級等等都是屬於分類問題 $。$

線性回歸做分類問題

假設我們要預測寶可夢(神奇寶貝)的屬性(一般系或水系)，我們把一般系當作1，水系當作-1去做迴歸分析的話，我們會得到一條如下圖的直線，使用線性回歸做分類問題會產生的問題是假如數據不是對稱的分佈就會像右圖那樣偏向某一邊，正常的情況分類問題我們應該是希望得到預測錯誤最少的直線(解)，那麼後續我們從GradientDescent的基礎來改善這個問題 $。$

分類問題的機率

假設我們有2個類別，類別1( $C_1$ )跟類別2( $C_2$ )，我們知道從類別中選中 $C_1$ 的機率以及從類別中選中 $C_2$ 的機率，還有從 $C_1$ 中選中 $x$ 的機率，從 $C_2$ 中選中 $x$ 的機率，就能知道我選中了一個 $x$ 是從 $C_1$ 選出來的機率以及 $x$ 是從 $C_2$ 選出來的機率 $。$
例如：我資料有79隻水系，61隻一般系，那麼 $P(C_1)=79/(79+61)=0.56$

那麼 $P(x|C_1)$ 呢?
$x$ 根本不在原本的資料中阿，我們怎麼知道 $C_1$ 抽中 $x$ 的機率?

多維高斯分怖

預備知識:聯合機率分佈概念，筆記
$x$ 根本不在原本的資料中阿，我們怎麼知道 $C_1$ 抽中 $x$ 的機率?
那麼我們就需要去預估資料的分佈了，下圖是水系神奇寶貝對應他的SP防禦力跟防禦力，每個點代表一隻神奇寶貝，我們假設資料的分怖是呈多維高斯機率分佈(可能出現機率由中心往外降低)， $\mu$ =平均數， $\Sigma$ =協方差矩陣， $D$ =維度，高斯分佈由這3個參數決定，我們要找出符合我們資料的高斯分佈所對應的 $(\mu,\Sigma,D)$ ， $D$ 是維度由特徵數決定，這邊特徵有2維(SP防禦跟防禦)，D=2 $。$

最大似然估計法(Maximum Likelihood)

最大似然估計法
我們要計算的是同時觀察到所有這些數據的概率，也就是所有觀測數據點的聯合概率分佈。
因此，我們需要計算一些可能很難算出來的條件概率。我們將在這裡做出第一個假設，假設每個數據點都是獨立於其他數據點生成的。
如果事件（即生成數據的過程）是獨立的，那麼觀察所有數據的總概率就是單獨觀察到每個數據點的概率的乘積（即邊緣概率的乘積）。

由數據(樣本)找高斯分佈
我們假設樣本是一個 $(P(x|C_1)=f_{\mu,\Sigma}(x))$ 的二維高斯分佈所產生，然後假設每個數據點獨立。
$L(\mu_1,\Sigma_1)$ 就是由這些數據點產生 $P(x|C_1)$ 的機率，
因為每個數據點獨立所以等於由每個數據點產生 $C_1$ ( $f_{w,b}(x_1)、f_{w,b}(x_2)...$ )機率的乘積。
我們要找到某個 $(\mu,\Sigma)$ 使L這個機率最大，就是求斜率等於零(函數的最高點或最低點)，找到的這個 $(\mu,\Sigma)$ 就是 $P(x|C)$ 的 $(\mu,\Sigma)$ 。
1. $L(\mu,\Sigma)$ 對 $\mu$ 做偏微分後等於零(斜率=0)移項後可求得 $\mu$ 。
2. $L(\mu,\Sigma)$ 對 $\Sigma$ 做偏微分後等於零(斜率=0)移項後可求得 $\Sigma$ 。
可以整理成下圖 $\mu^*,\Sigma^*$ 形式，注意n的範圍為各別計算類別的樣本數。
$\mu^*_1= \frac{1}{類別1樣本數} \sum_{n=1}^{79} x^n$
$f_{\mu,\Sigma}(x1)$ 表示由 $x_1$ 產生 $C_1$ 的機率。
注: $P(x|C_1)$ 為機率分佈，( $f_{\mu,\Sigma}(x_1)、f_{\mu,\Sigma}(x_2)...$ )為機率，因為 $x$ 已經確定。

實作

使用2維高斯分佈抽樣100個點，並作圖。
計算這100個樣本特徵(特徵:防禦,SP防禦)的聯合機率分佈，求 $(\mu,\Sigma)$ 最大值 $。$
繪圖比較

求分類問題的機率

underfitting、overfitting

high Bias即所謂的Underfitting，因為參數過少連Training set都會有頗大的預測誤差。
low Bias high Variance即所謂的Overfitting，因為參數過多導致過度符合Training set的資料特性，使得其無法預測較為普遍的資料集。

解決overfitting

我們將 $\Sigma_1,\Sigma_2$ 共用同一個 $\Sigma$ ，使機率函數複雜度降低，減少overfitting。
$\Sigma=\frac{類別1樣本數}{樣本總數}\Sigma^1+\frac{類別2樣本數}{樣本總數}\Sigma^2$ 。

能否用其他的分佈

是可以的，其他的分佈概念相同，以同樣的概念去推導公式。

後驗概率

Sigmoid function
式子簡化
代入原先的高斯分佈 $\Sigma_1,\Sigma_2$ 以同一個 $\Sigma$ 簡化，得 $w^Tx+b$
反思
如果我們分佈概念推導到分類問題的機率都是要求一個 $w^T跟B$ 的話，那麼我們是不是可以直接用一個 $w^T,b$ 的式子來求分類機率呢?
用一個 $w^T,b$ 的式子來求分類機率那就是Logistic Regression的概念了。

參考李宏毅老師ML課程

[監督式]分類
從上篇GradientDescent延伸，這次要處理的是分類問題，從數據特徵中推斷是屬於哪一類別的標籤，例如:從身...
[監督式]貝氏分類器(Naive Bayes classifie
貝氏(Byes) 機率計算可以參考統計學筆記貝氏定理一個隨機事件或者一個不確定事件的後驗機率是在考慮和給出相關...
[監督式、非監督]KNN、K-mean
KNN(K Nearest Neighbor) k鄰近算法可以算是一種監督式學習算法，從部分已知的資料來推測未知的...
[監督式]GradientDescent介绍
以Gradient Descent做回归分析，假设一个监督式学习的预测房价例子：以下X为特征参数（feature）...
[監督式]Ensemble learning
Ensemble learning(集成學習) 做法假設我們有多個模型(假設3個)，每個模型準確率都大於50%(假...
朋友，說好的日更呢
那天朋友說，決定日更請監督。而我回覆說，寫就對了，無需監督。因為我也知道，鞭長莫及。監督有用嗎？並沒有。這是第二...
[監督式]PLA(Perceptron Learning Alg
架構圖為群體參數，為一個函數輸入得到 (資料)為由群體取出的樣本參數加上雜訊，為一個函數，輸入得到(預測) 為推...
[監督式]SVM(Support Vector Machines
SVM(Support Vector Machines) 建議可以先讀PLA(感知器) 這邊與PLA不同的是，我們...
[監督式]seq2seq
預備知識RNN、LSTM之前花了一些時間讀了seq2seq+attention，發現沒做筆記過一陣子真的很容易忘，...
通证需要监管
證券類通證平台TokenSoft投資受SEC監管的券商 By Ana Alexandre 閱讀需1分鐘 12月13...