美文网首页
day03-二分类问题

day03-二分类问题

作者: wenyilab | 来源:发表于2020-01-31 23:46 被阅读0次
概念:

输入变量X和输出变量Y有不同类型,可以连续,可以离散。根据输入输出变量的不同类型,对预测人物给予不同的名称。输入输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入输出变量均为变量序列问题称为标注问题

二分类:

二分类问题就是简单的“是否”,“有无”问题,例如输出变量为0或1。

二分类评价指标:

1、准确率
2、混淆矩阵
3、精准率、召回率、F1_score
4、auc
5、logloss

二分类算法:

1、逻辑回归
2、svm
3、决策树
4、随机森林
5、Adaboost
6、xgboost
7、lightgbm
8、catboost
9、朴素贝叶斯

1.1 线性回归原理
概念:
线性回归是一种通过线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维度的超平面,使得预测值与真实值之间的误差最小化。
线性回归:



线性回归是通过数据在N维空间找到h(x)来描述这些规律,这个过程称为拟合。h(x)的预测值与真实值会有偏差,也称为残差。线性回归一般使用残差的平方来计算损失,即损失函数为:



为了获得使J最小的w和b:
主要方法有:
1、偏导法
2、方程求解
3、梯度下降等等

优缺点:
优:权重w是每个变量x的权重,通过w的大小可以看出每个x的重要性,有很好的解释性
缺:非线性数据拟合不好

1.2 逻辑回归原理
从1.1中可知,h(x)预测值是连续的,是一个回归模型。但是如果我们希望输出是离散的,则需要将h(x)进行一个函数转换,变成g(Y),其中g(Y)中的某些值属于类别1,另外的属于其他类别,这样的模型则为二分类模型。
此时g可以为:



g函数也被称为sigmoid函数。
当sigmoid函数计算出的值大于0.5的归为类别1,小于0.5的归为类别0
假设预测真实样本为1的概率为pi,则预测真实样本为0的概率为1-pi,那么预测概率为:



得到这个函数的最大似然函数:

两边取对数:

使用随机梯度下降优化损失函数:
损失函数:



对损失函数两边求导:

最终迭代优化权重:

逻辑回归优点:
1、容易理解和实现,可以观测样本的概率分数
2、训练速度快
3、由于经过sigmoid函数的映射,对数据中小噪声鲁棒性较好
4、不受多重共线性的影响(可通过正则化进行消除)
缺点
1、容易欠拟合
2、特征空间大时效果不好
3、由于sigmoid函数特性,在接近0/1的两侧概率变化较平缓,中间变化较大,无法确定临界值。

相关文章

网友评论

      本文标题:day03-二分类问题

      本文链接:https://www.haomeiwen.com/subject/eejothtx.html