机器学习各类算法注意点
前言
这篇文章主要记录笔者在学习感知机算法过程中,各个算法需要注意的地方,不过过多的提及算法的细节问题。旨在理清难点及技巧方面,记录下来帮助自己理解也希望能够帮助到读者们
感知机
超平面距离
输入变量 x
到超平面的距离为,其中 ||w||
为权重 w
的L2范式,即平方和

损失函数
损失函数如下

解释如下:
我们定义 w*x+b>0
时,y=+1, 而w*x+b<0
时则 y=-1
所以当预测错误时总有 y*(w*x+b)<0
,因为预测错误时w*x+b
和y
总是异号的。那么我们乘以 -1,则此时乘积为正数。我们将其作为损失函数定义为L(w,b)=-∑y(w*x+b)
,其中x属于错误分类的点数。简称为 L ,则此时 L 越小,那么损失就越小,越容易预测正确,因为错误分类的点数越少
收敛性
感知机可以被证明当数据集能够被正确划分时,其学习次数的有限的,证明过程略,有需要的读者请阅读《统计学习方法》
对偶形式
通过感知机的学习模式,我们能够知道有如下证明,如果定义 w 和 b的初始值 w0=0
和 b0=0
,那么 w 和 b 不断进行迭代从而更新自身的值,详细解释请查阅书籍
我们使用上面的形式来表示 w 和 b ,称为对偶形式,其中 ni
表示的对数据xi
更新的次数,如果一个数据被反复的学习,那么意味着这个数据距离超平面越近,所以需要反复衡量,也就越难分类。因为可以从公式中看出这样的数据会被多次调用,数据的叠加次数就会增多,这样的数据对学习结果影响就越大 。

训练步骤
- 导出损失函数
- 求损失函数的梯度下降
- 使用梯度下降训练数据
后语
这是《统计学习方法》的第一个算法,不算困难但有些点确实让笔者花费了不少心机去理解。希望笔者这篇文章给各位读者一些细微的帮助,接下来还有更加困难的算法,让我们拭目以待,如果笔者有错漏的地方,也烦请各位读者海涵指正
网友评论