分类问题
预测变量y是离散值的分类问题。
0:负类(圆圈),常表示没有什么;1:正类(叉)
设定阈值为0.5,根据拟合出的曲线得到d,则肿瘤size>d时为恶性,size<d时为良性
实际上线性拟合并不适用于分类问题。上图只是运气好。略微修改数据集中的一个值,线性拟合将size小于d2的判定为良性。结果很差
新的拟合直线不能完成分类
另外若对分类问题使用线性拟合,即便所有样本都是[0,1], sigmoid函数
此时的假设函数h可理解为y=1的概率估计(若h=0.7,则肿瘤为恶性的概率为70%):
此红线就是决策边界,对应假设函数的值正好为0.5的区域。决策边界是假设函数的属性,而不是数据集的属性(客观存在,不依赖于数据集)
为了得到更复杂的决策边界,也可在特征中添加额外的高阶多项式项:
由于此时的
有许多局部最优值
因此改用新的代价函数:
if y=0
if y=1
写成一个等式:
多元分类(“一对多” 或“一对余”)
将训练集转换为3个独立的二元分类问题。构造3个“伪”训练集,得到3个分类器(红线):
1
2
3
对于输入x,运行三个分类器,选择h最大的类别(h表示概率)
网友评论