１模型评价-准确率与ROC、AUC

这部分原文地址：https://www.douban.com/note/284051363/

1.1 准确率相关

混淆矩阵是计算各种准确率的基础，各种准确率是得到roc曲线的基础。

准确率与召回率

1.2 ROC与AUC （曲线、面积）

ROC曲线的横坐标为false positive rate（FPR，即假正率实际假例中，被误判为正的样例比率），纵坐标为true positive rate（TPR，即真正率，正例中判断为正的样例比率）.

在模型差别中，每一个阈值，会造成模型判断的正负样例数发生变化，对应的FPR、TPR也会有变化，最终形成一条从（0，0）到（1，1）的曲线。

这条曲线下的面积就是AUC （area under curve）

2 模型优化目标

2.0 极大似然估计（备用）

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！
换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

极大似然估计中采样需满足一个重要的假设，就是所有的采样都是独立同分布的。

来源：https://zhuanlan.zhihu.com/p/26614750

案例：黑白球袋，随机有放回取球，取出白占比70%时，我们推断总体中白占70%.

推断原理：

假设白出现概率是p,黑是1-p,则目前取的结果就是：

P(样本结果|Model)

= P(x1,x2,…,x100|Model)

= P(x1|Mel)P(x2|M)…P(x100|M)

= p^70(1-p)30.

p是多少怎么确定？
可以选择很多种分布方式。

那么问题来了，既然有无数种分布可以选择，极大似然估计应该按照什么原则去选取这个分布呢？

答：采取的方法是让这个样本结果出现的可能性最大，也就是使得p^70(1-p)30值最大，那么我们就可以看成是p的方程，求导即可！

那么既然事情已经发生了，为什么不让这个出现的结果的可能性最大呢？这也就是最大似然估计的核心。

我们想办法让观察样本出现的概率最大，转换为数学问题就是使得：

p^70(1-p)30最大，这太简单了，未知数只有一个p，我们令其导数为0，即可求出p为70%，与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

2.1 模型优化目标（求解参数的目标）

一般分类模型的优化目标，就是对一个函数求最优化的参数估计，以满足一定的函数要求。
通常，极大似然估计，就是求解函数参数，使得已经出现的情形出现概率最大；
若求解损失函数（cost function or loss function），就是最优化问题，求解函数参数，使得整体样本的损失函数加权值最小。

2.11 线性回归优化目标

预测值与实际值之间距离平方和最小—— 最小二乘法

2.12 逻辑回归优化目标

LogLoss可以通过最大似然估计推导出来（估计参数，使得已经出现的结果出现的概率最大化）

简化理解：
损失函数，就是当预测结果与观测值不相符的时候，值（损失\成本）最大化。
对于逻辑回归，y = H（θ，x）, y 值有0，1两种结果[以下不写参数θ，简记为H(x)]：
当y=1时
若H(x)预测也为1，则有cost ->0，若H(x)预测为0，则应该有cost->无穷大；
对应的cost function 可以为： -log(h(x))
当y=0时
若H(x)预测也为1，则有cost ->无穷大，若H(x)预测为0，则应该有cost->0；
对应的cost function 可以为： -log(1-h(x))

综合起来，就是：