Profile
FullName: Support Vector Machine
vs Logistic Regression
Logistic Regression
Logistic回归的决策边界可以使得向量的范数尽可能小,即尽可能保证阳性事件的预测概率尽可能大,阴性事件的预测概率尽可能小
Support Vector Machine
hard-margin:找到一个超平面f(θ),使这个超平面两边的最近的两个点(Support Vector)与这个超平面的距离(margin/2)最远,f(θ)作为分类边界,并且不允许有点落在margin区域内
soft-margin:允许部分向量落在margin区域或者margin对岸,并将这些点距离margin的距离作为损失函数的一部分.
svm的数学表达
hard-margin-SVM
设 margin = 2d
=>=>
soft-margin-SVM
允许部分点越过支撑向量,越过的部分会作为损失函数的一部分,最优值问题转化为
以上模型成为L1正则,L2正则目标表达式为
Kernel Function(核函数,Kernel Check)
SVM可以视为求解
的最优化问题,这个问题可以等价于它的对偶问题
有时分类边界是非线性的,需要对x,y进行某种变形
目标问题可转化为
多项式核函数
最高系数为2的多项式核函数为例,
(3)带入(2)可得
将二次核函数推广到一般情况,
特别地,当c=0,d=1时候,多项式核函数可称为线性核函数
多项式核函数可以认为是向量点乘推广到更一般的形式
高斯核函数
又称RBF核(Radial Basis Function Kernel),形态如下
其中y是每一个数据点,即每一个数据点都作为landmark
由于和高斯分布的形态一致,所以得名高斯核函数
高斯核函数可以将一个m*n的样本映射为一个m*m的样本,是一种维度拓展的方法
越大,高斯分布越窄,越容易过拟合
越小,高斯分布越宽,越容易欠拟合
可以认为和模型复杂度正相关
网友评论