当仅能取小数目的离散值时,即为分类问题。本节着重分析二分(binary classification)问题,其中
仅能取0和1。0又被称为负类(negative class),1又被称为正类(positive class),有时也会使用符号“-”、“+”表示。
(一)逻辑斯蒂回归(Logistic Regression)
由于的取值发生了变化,我们相应修改
形式:
,
这里
被称为逻辑斯蒂方程(logistic function)或者sigmoid函数(sigmoid function)。函数图像如下:
![](https://img.haomeiwen.com/i15717008/b0bfa8303a09ddcb.png)
同样,我们令,使得
.
计算出的导数有:
让我们假设:
将两式和为一式有: 。
假设个训练例子相互独立,则其最大似然函数可写为:
与前例相同,我们仍然最大化对数似然函数
选用梯度上升的方式最大化对数似然函数,(在线性回归中,最大化对数似然函数即最小化代价函数,故在线性回归中选用的梯度下降法。)同样,我们先考虑一个训练例子的情况,:
![](https://img.haomeiwen.com/i15717008/b7ed16b4b11e5c50.png)
推广到随机梯度上升法有:
与线性回归相同,同样可以使用牛顿法得到。
(二)感知器学习算法(The perceptron learning algorithm)
考虑修改逻辑斯蒂回归方法使得输出值只能为0和1,自然地,我们需要将设定为阈值函数:
![](https://img.haomeiwen.com/i15717008/49685a6999ff7668.png)
同样令,如果我们使用如下更新规则:
则称为感知器学习算法。
网友评论