机器学习入门——比较检验

作者: 阡陌哥哥 | 来源:发表于2018-05-06 18:55 被阅读15次

机器学习入门——比较检验
大牛推荐的6本机器学习经典必读书
[机器学习系列二]TensorFlow入门
机器学习&深度学习知识体系——写过的博文（博客目录索引）
关于机器学习
资源整理
机器学习入门——实战篇之强化学习
机器学习入门——实战篇之非监督学习
机器学习入门——实战篇之深度学习
机器学习入门——实战篇之监督学习

上一篇我们讲了学习器的性能度量方法，是否就可以直接比较不同模型的性能呢？

其实事情远没有想象的那么简单。首先，我们希望比较的是泛化性能，然而通过实验评估方法我们获得的是测试集上的性能，两者的对比结果可能未必相同;第二，测试集上的性能与测试集本身的选择有很大关系，且不论使用不同大小的测试集会得到不同的结果，即使用相同大小的测试集?若包含的测试样例不同，测试结果也会有不同;第二，很多机器学习算法本身有一定的随机性，即便用相同的参数设置在同一个测试集上多次运行，其结果也会有不同。

假设检验

关于假设检验的理解，请移步知乎马同学的回答https://www.zhihu.com/question/23149768/answer/282842210

我们假设训练样本是从总体样本中独立采样而得的，样本空间符合独立同分布，那么泛华错误率和测试错误率应该是相近的。

还是以二分类问题为例（分类结果只有正例和反例），分类结果符合二项分布。

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验

图2.6
P()里面第一个符号表示测试错误率，第二个符号表示泛化错误率。公式2.26其实就是二项式公式

下面求在某一个置信度下错误率的临界值。

置信水平（置信度）是指总体参数值落在样本统计值某一区内的概率，一般用1-α表示，α表示显著度；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。例如，样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值，置信度为95%。

在l 一α 的概率内所能观测到的最大错误率如下式计算.这里1 一α 反映了结论的" 置信度" (confidence) ，直观地来看，相应于图2.6 中非阴影部分的范围

S.t. 是"Subject to" 的简写，使左边式子在右边条件满足时成立。右边的条件表示的是将超过基准错误个数的每种情况的样本误分类概率都加起来（即上图阴影部分）应当小于某个显著度α。

t分布

t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是：t分布的样本的总体必须符合正态分布)

假设X服从标准正态分布即X ~ N(0,1)，Y服从自由度n的卡方分布即Y ~ χ2（n），且X与Y是相互独立的，则称

的分布为自由度为n的t分布，记为Z ~ t(n).

t分布的性质

（1）以0为中心，左右对称的单峰分布；

（2）t分布是一簇曲线，其形态变化与n（即其自由度）大小有关。自由度n越小，t分布曲线越低平；自由度n越大，t分布曲线越接近标准正态分布（u分布）曲线，当自由度无限大时，t分布就成了正态分布。下面是t分布的密度函数和曲线。

t(n)分布曲线（3）

卡方分布：若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。
tips:如果没有理解t分布，请参考知乎的一篇问答https://www.zhihu.com/question/30753175?sort=created

t检验

若有如下t分布

其实t就是横坐标。回到性质3，假设现在已知来自正态分布的一个样本均值已知为120，自由度n = 5，正态分布的期望是100，方差是125，则可以计算出此时的t = 4。t=4之后的曲线下面积其实就是P值，若计算的P = 0.01，如果我们要求5%的显著水平（根据需求和具体问题人为而定），发现P小于等于0.05，则可以拒绝“新取出的样本的分布和已知正态分布相同”的假设，即新样本的分布不同于原已知的正态分布。P越小于显著水平，假设错的越显著。

显著性水平是假设检验中的一个概念，是指当原假设为正确时人们却把它拒绝了的概率或风险。它是公认的小概率事件的概率值，必须在每一次统计检验之前确定，通常取α=0.05或α=0.01。这表明，当作出接受原假设的决定时，其正确的可能性（概率）为95%或99%。

对不同学习器的性能进行比较有交叉验证t检验、McNemar检验、Friedman检验、Nemenyi后续检验等，以后结合具体应用讲解，暂且不表。

参考：《机器学习》周志华
https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83/1442377?fr=aladdin
https://baike.baidu.com/item/%E7%BD%AE%E4%BF%A1%E6%B0%B4%E5%B9%B3/7442548?fr=aladdin
http://www.mamicode.com/info-detail-1720370.html
https://wenku.baidu.com/view/761748c2e109581b6bd97f19227916888486b928.html
https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E5%88%86%E5%B8%83/2714796
https://www.zhihu.com/question/30753175?sort=created
https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148

微信公众号.jpg