1模型评价-准确率与ROC、AUC
这部分原文地址:https://www.douban.com/note/284051363/
1.1 准确率相关
混淆矩阵是计算各种准确率的基础,各种准确率是得到roc曲线的基础。
准确率与召回率1.2 ROC与AUC (曲线、面积)
ROC曲线的横坐标为false positive rate(FPR,即假正率 实际假例中,被误判为正的样例比率),纵坐标为true positive rate(TPR,即真正率,正例中判断为正的样例比率).
在模型差别中,每一个阈值,会造成 模型判断的正负样例数发生变化,对应的FPR、TPR也会有变化,最终形成一条从(0,0)到(1,1)的曲线。
这条曲线下的面积就是AUC (area under curve)
2 模型优化目标
2.0 极大似然估计(备用)
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。
来源:https://zhuanlan.zhihu.com/p/26614750
案例:黑白球袋,随机有放回取球,取出白占比70%时,我们推断总体中白占70%.
推断原理:
假设白出现概率是p,黑是1-p,则目前取的结果就是:
P(样本结果|Model)
= P(x1,x2,…,x100|Model)
= P(x1|Mel)P(x2|M)…P(x100|M)
= p70(1-p)30.
p是多少怎么确定?
可以选择很多种分布方式。
那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
答:采取的方法是让这个样本结果出现的可能性最大,也就是使得p70(1-p)30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p70(1-p)30最大,这太简单了,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。
2.1 模型优化目标(求解参数的目标)
一般分类模型的优化目标,就是对一个函数求最优化的参数估计,以满足一定的函数要求。
通常,极大似然估计,就是求解函数参数,使得已经出现的情形出现概率最大;
若求解损失函数(cost function or loss function),就是最优化问题,求解函数参数,使得整体样本的损失函数加权值最小。
2.11 线性回归优化目标
预测值与实际值之间距离平方和最小—— 最小二乘法
2.12 逻辑回归优化目标
LogLoss可以通过最大似然估计推导出来(估计参数,使得已经出现的结果出现的概率最大化)
简化理解:
损失函数,就是当预测结果与观测值不相符的时候,值(损失\成本)最大化。
对于逻辑回归,y = H(θ,x), y 值有0,1两种结果[以下不写参数θ,简记为H(x)]:
当y=1时
若H(x)预测也为1,则有cost ->0,若H(x)预测为0,则应该有cost->无穷大;
对应的cost function 可以为: -log(h(x))
当y=0时
若H(x)预测也为1,则有cost ->无穷大,若H(x)预测为0,则应该有cost->0;
对应的cost function 可以为: -log(1-h(x))
综合起来,就是:
logistic cost function求解逻辑回归模型的最优参数,就是最小化损失函数的过程,这一过程可以通过(随机)梯度下降算法实现。
网友评论