逻辑回归是机器学习中的常用算法,不仅广泛应用于互联网行业,而且在Kaggle比赛中也经常被使用。
- 逻辑回归模型适用范围:一种解决二分类问题的机器学习算法。例如:某用户购买某商品的可能性(买/不买),某病人患有某种疾病的可能性。
- 逻辑回归的输出结果:概率p([0,1]),p = f(x)
-
逻辑回归模型:结合sigmoid函数和线性回归函数
image.png
image.png
image.png
损失函数

-
梯度下降法求解模型参数
分三步求解:
1)求sigmoid函数的导数
𝑔^′ (𝑧)= 𝑔(𝑧)(1−𝑔(𝑧))
2)求解∇𝐹(𝑤)
image.png
3)梯度下降法来求解𝑤^∗
随机初始化一个𝑤_0
image.png
多分类问题
(1)OvR(One VS Rest)
一个类别与剩余样本,将每个类别单独作为分类器,求单个类在该二分类器上的概率,概率值最大的类别就为测试样本的类别。

(2)OvO(One VS One)
一个类别与另一个类别,N个类别的话,就要进行C(n,2)次排列组合进行分类。对预测出的结果进行投票统计,票数最高者为预测结果。

分类模型的评价指标
真阳性(TP): 预测为正,实际也为正
假阳性(FP): 预测为正,实际为负
假阴性(FN): 预测为负,实际为正
真阴性(TN): 预测为负,实际也为负
准确率(Accuracy):
Accuracy=(TP+TN)/(TP+FP+FN+TN)=A
精确率(Precision):
Precision=TP/(TP+FP)=P
召回率/查全率(Recall):
Recall=TP/(TP+FN)=R=TPR
FP/(FP+TN)=FPR
F1_Score的计算公式:
F_1=(2∙precision∙recall)/(precision+recall)=(2PR)/(P+R)
当精确率和召回率都为0时,定义F_1=0。本质上F_1是精确率和召回率的调和平均,
1/F_1 =1/2 (1/precision+1/recall)=1/2 (1/P+1/R)
调和平均一个很重要的特征是如果两个数极度不平衡(一个很大,一个很小),最终的结果会很小,只有两个数都比较高时,调和平均才会比较高,这样便达到了平衡精准率和召回率的目的。
1.3 相互关系
(1)精确率和召回率的平衡——PR曲线

它们是一对相互矛盾的关系
用途:可以用作选择模型、选择超参数的一项指标。
(2)ROC曲线(Receiver Operation Characteristic Curve:受试者工作特征曲线)

即使正例与负例的比例发生了很大变化,ROC曲线也不会产生大的变化。
具有鲁棒性,在类别分布发生明显改变的情况下依然能客观地识别出较好的分类器。
网友评论