一、分类
常见的分类问题,比如肿瘤的恶性或良性,是一个二分类问题,可用0或1表示,
假设我们对于已有的数据构建一个线性回归模型,比如下图:
我们将模型的分类阈值定为0.5,当模型的值大于等于0.5的时候则为1,当模型的值小于0.5的时候则为0。
当新增加一个点时,线性回归的模型可能会变成下图蓝色的线,
那么根据新的模型,黄色框中原本为恶性的例子却成了良性。此外,当X小于横截距以及X过大时,还会存在模型的值在0-1的范围外的情况。可见这种线性模型用于分类问题不是太合适。
而逻辑回归可用于二分类,其取值在0-1之间。
二、、逻辑回归模型
线性回归的假设函数是hθ(X) = θ^T*X,而逻辑回归即在线性回归的模型外部加上了g(),即Sigmoid函数,也叫逻辑函数。
则逻辑回归的模型为:
其中X为特征向量,g()逻辑函数是是一个S形函数,逐渐逼近0和1,如图:
逻辑回归假设函数hθ(X)的作用是对于给定的输入变量,根据选择的参数计算输出变量为1的可能性。
例如,如果对于给定的X,通过已经确定的参数计算得出的hθ(X)=0.7,则表示有0.7的可能性,Y为1,则Y为0的可能性为1-0.7=0.3。
三、决策边界
如下图,当z>=0,g(z)>=0.5。即当 θ^T*X>=0时,hθ(X)>=0.5。此时Y=1。
假设拟合的曲线z=θo+θ1X1+θ2X2,确定了θ的值后,决策边界即为θo+θ1X1+θ2X2=0 这条曲线
上图的例子是线性的决策边界,有时会涉及非线性的高阶多项式,下图则是一种非线性的决策边界
决策边界不是训练集的属性,而是假设本身及其参数的属性。
当假设有更高阶的多项式时,则出现的决策边界的形状会更复杂
微信公众号:BioLearner
定期更新,欢迎关注
网友评论