VC dimension and Model complexit

作者: 薛东弗斯 | 来源:发表于2018-04-22 18:33 被阅读0次

VC dimension and Model complexit
VC Dimension
VC维的理解
7-VC dimension
Reasons behind Large-Margin Hype
控制器A的model传到控制器B，需要copy或mutablec
VC-Dimension and Rademacher Comp
连载 | 机器学习基石 Lec 7：VC Dimension 及
机器学习基石第七节
9-Linear Models II

可以把growth function m_H(N)的upper bound用N^(k-1)来限制, for N large, k>=3 Thus,

定义: VC Dimension: maximum non-break point 如果break point = k, then VC dimension = k-1 在VC Dimension上，这个Hset可以shatter某N个点，不一定是所有的N个点，但是如果N超过了VC dimension，则出现了Hset不能shatter掉的情况。 d_vc = minimun k -1

如果有另外一个N的input，可以被shatter，则d_vc>N。如果其他任何的N input都不能被shatter的话,则d_vc

1. if linear separable dataset, PLA can converge. After T(large) correction, Ein(g)=0 2. with x_n ~ P and y_n=f(x_n), the prob of (Ein(g)-Eout(g)>epislon) <= 4m_H(2N)exp(-1/8 * epislon^2 * N) (Hoeffding) if d_vc is finite. Then if N large, Eout(g) = Ein(g) PAC Combine with 1 and 2, Eout(g) = 0

Multiple feature d-D perceptrons: d_vc = d+1 证明：先证d_vc >= d+1 (There are some d+1 inputs that can shatter) 输入d+1个点，每个点的维度为d再加上x_0=1，也就是那个threshold，一共是d+1维。把这d+1个维度为d+1的点写成矩阵形式：

第1个点全0，第2个点在第一个维度有1的分量，其他维度为0，第3个点在第二个维度有1的分量，其他维度为0，其他以此类推。然后最左边灰色的column就是那个threshold，就是x_0。这个矩阵是(d+1)*(d+1)维的，是可逆的，invertible。对于任何一个dichotomy, 用y=[y_1, y_2,…,y_d+1]表示的话，可以有一个w，这个w也就是一个h在每个feature上的权重，通过这个h对d+1个点的Data进行划分，得到的其中一种dichotomy。那么现在对于任何一种dichotomy，都可以找到对应的w，即

所以对于这种特定的X，发现它可以被shatter，满足条件 (There are some d+1 inputs that can shatter)，因此d_vc>=d+1 现在证d_vc<=d+1（任何>d+1，姑且就用d+2个点作为例子，都不能被shatter）对于2D perceptron情况，对于输入是3个点而言，存在可以被shatter的3点input。在此基础上，加上一个点，变成了4点input。现在可否被shatter呢？假设原来三个点分别是+1,+1,-1，如果是这样的话，第4个点就无法是-1，原因是第四个点与前3个点有linear dependence，这restrict了dichotomy的种类。

因此对于2D情况，当输入的点的个数大于d+1，这里是d+2，都不可以被shatter。对于一般的d维perceptron，每个点的维度是d+1维，现在输入d+2个点，把这些点用矩阵形式表示，

可以看到，第d+2个点x_d+2 可以由前d+1个点用线性表示，这是线代里面知识。现在有个h，它的w满足

就是它满足对每个点x的划分的符号都与前面的a相同，那么这样产生出来的结果是正的，因此第d+2个点就不能被h划分为－1，此时说明如果有d+2个点作为input，这种情况是不可以被shatter的。因此d_vc<=d+1。证毕。

VC bound: 不等式右边，定义为delta，Bad发生的概率delta很小

相反，Good发生的概率，即P(|Ein(g)-Eout(g)|<=epislon) >= 1-delta

这个不等式，Ein和Eout有很大的概率，会被限制在根号那一项内，定义为Omega，就是model(Hset) complexity。

可以看到，随着VC dimension的上升，Hset就越来越powerful，Ein就会下降，但是这伴随着Model Complexity的penalty。某个时刻，Model Complexity 德penalty上升的量超过Ein下降的量，这样会导致Eout不降反升。 Sample Complexity:N 还是对于Hoeffding中的VC Bound delta