概念:
输入变量X和输出变量Y有不同类型,可以连续,可以离散。根据输入输出变量的不同类型,对预测人物给予不同的名称。输入输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入输出变量均为变量序列问题称为标注问题
二分类:
二分类问题就是简单的“是否”,“有无”问题,例如输出变量为0或1。
二分类评价指标:
1、准确率
2、混淆矩阵
3、精准率、召回率、F1_score
4、auc
5、logloss
二分类算法:
1、逻辑回归
2、svm
3、决策树
4、随机森林
5、Adaboost
6、xgboost
7、lightgbm
8、catboost
9、朴素贝叶斯
1.1 线性回归原理
概念:
线性回归是一种通过线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维度的超平面,使得预测值与真实值之间的误差最小化。
线性回归:
线性回归是通过数据在N维空间找到h(x)来描述这些规律,这个过程称为拟合。h(x)的预测值与真实值会有偏差,也称为残差。线性回归一般使用残差的平方来计算损失,即损失函数为:
为了获得使J最小的w和b:
主要方法有:
1、偏导法
2、方程求解
3、梯度下降等等
优缺点:
优:权重w是每个变量x的权重,通过w的大小可以看出每个x的重要性,有很好的解释性
缺:非线性数据拟合不好
1.2 逻辑回归原理
从1.1中可知,h(x)预测值是连续的,是一个回归模型。但是如果我们希望输出是离散的,则需要将h(x)进行一个函数转换,变成g(Y),其中g(Y)中的某些值属于类别1,另外的属于其他类别,这样的模型则为二分类模型。
此时g可以为:
g函数也被称为sigmoid函数。
当sigmoid函数计算出的值大于0.5的归为类别1,小于0.5的归为类别0
假设预测真实样本为1的概率为pi,则预测真实样本为0的概率为1-pi,那么预测概率为:
得到这个函数的最大似然函数:
两边取对数:
使用随机梯度下降优化损失函数:
损失函数:
对损失函数两边求导:
最终迭代优化权重:
逻辑回归优点:
1、容易理解和实现,可以观测样本的概率分数
2、训练速度快
3、由于经过sigmoid函数的映射,对数据中小噪声鲁棒性较好
4、不受多重共线性的影响(可通过正则化进行消除)
缺点
1、容易欠拟合
2、特征空间大时效果不好
3、由于sigmoid函数特性,在接近0/1的两侧概率变化较平缓,中间变化较大,无法确定临界值。
网友评论