视频在b站上有
线性分类器:定义一个loss函数,然后做optimization----使得loss最小。在W空间中搜索最佳的W
A loss function tells how good our current classifier is.
多分类SVM:

对所有类别进行总和,除了正确的类别Yi。公式中,如果正确的分类比错误的分类大(在一个安全区域内,设置为1),那么loss为0

比如说有一个W使得loss为0,也会有其他的W使得loss为0,即其不唯一。比如2W也使得loss为0
Regularization用于防止过拟合

常见的Regularization方法:

最常用的是L2(也称为weight decay),L2正则化是在惩罚欧几里得的规范。加正则化项是迫使模型倾向于简单的模型
Softmax Classifier:

Optimization
第一种方法:random search,随机初始化W,然后挑选loss最小的
第二种:梯度下降
gradient check:http://blog.csdn.net/lanchunhui/article/details/51279293
计算整个数据集上的loss会很慢,所以使用minibatch,Stochastic Gradient Descent(SGD)随机梯度下降
Numerical gradient:每次用一个很小的值更新W,然后计算loss值,接着估计gradient
Analytic gradient:求偏导数
在神经网络之前的方法,取特征然后进行分类,常见的特征1. 颜色,各个颜色的多少 2. 边缘信息 Histogram of Oriented Gradients方向直方图 3. bag of words
BP:

从节点之后传递回来的梯度乘以local的梯度,再反向传递回去。

加法相当于将梯度分配给之前的每个节点,都相同。max相当于路由,只传递给较大的那一个节点。乘法相当于梯度switcher,转换器吧,收到其他节点输入值的影响。

分支的反向传回来的梯度相加
Neural Network:
对于之前的线性方程f=Wx,进行修改f=W2max(0, W1x) W1相当于去学习一些模版,W2是这些模版的加权
网友评论