美文网首页
假设检验(概率论)

假设检验(概率论)

作者: Tsukinousag | 来源:发表于2021-02-03 19:51 被阅读0次
  • 1. 提出问题

考虑T_all的泛化能力:

1.测试集上的性能与真正的泛化性能未必相同

2.测试集上的性能与测试集本身选择有很大关系

3.机器学习算法本身有一定的随机性,同一个测试集上多次运行,可能会有不同的结果


  • 2.二项分布

import pandas as pd
import matplotlib as pml
import  matplotlib.pyplot as plt
from scipy.special import comb


#全部数据ALL
#假设模型在ALL上的错误率为
e_all=0.3

#测试集T
#T样本量
m_T=10
#模型在T上面判断错误的数量
m_T_error=6
#模型在T上的错误率
e=round(m_T_error/m_T,4)

#二项分布计算
def calculate_p(m_T,m_T_error):
    p=(comb(m_T,m_T_error))*(e_all**m_T_error)*(1-e_all)**(m_T-m_T_error)
    p=round(p,4)
    return p
p=calculate_p(m_T,m_T_error)

#出现每个情况的概率
def calculate_ps(m_T):
    m_T_errors=list(range(m_T+1))#错误个数也可能是0,1,2,3,4...
    ps=[]
    for i in range(len(m_T_errors)):
        m_T_error=m_T_errors[i]
        p=calculate_p(m_T,m_T_error)
        ps.append(p)
    return m_T_errors,ps

m_T_errors,ps=calculate_ps(m_T)

#错误个数:[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
#二项分布下的错误率[0.0282, 0.1211, 0.2335, 0.2668, 0.2001, 0.1029, 0.0368, 0.009, 0.0014, 0.0001, 0.0]
#画出分布图象
def plot_scatter(x,y):
    plt.scatter(x,y,s=20,c='b',alpha=0.5)
    plt.show()
    return

plot_scatter(m_T_errors,ps)

从图中可以看出,错三个的概率是最高的,e=e_all=0.3的情况概率是最高的


  • 3. 假设检验

假设e_all<=0.3,对于这个假设,实际只设了上限,拒绝这个假设的办法只能是出现大于某个数的错误,那么这个界限的最大值是多少?置信度为90%

#上述概率累加求和
def calculate_Ps(ps):
    Ps=[]
    p=0
    for i in range(len(ps)):
        p+=ps[i]
        Ps.append(p)
    return Ps
Ps=calculate_Ps(ps)

plot_scatter(m_T_errors,Ps)

求出上界,进行单侧假设检验

import numpy as np
Ps_array=np.array(Ps)
confidence_index=np.argwhere(Ps_array>0.9)
##np.argwhere( a ) 返回非0的数组元组的索引,其中a是要索引数组的条件。
confidence_index=confidence_index[0]

print(confidence_index)
#[5]

  • 4.多个测试集一种算法

t检验(1.离散型随机变量的函数分布,2.卡方分布,3.t分布,4.正态分布与处理为t分布)

  • 5.多个测试集两种算法

交叉验证t检验

  • 6.一个测试集两种算法

McNemar检验

  • 7.多个测试集多种算法

Friendman检验与Nemenyi后续检验

以上是数理统计的内容,见宇哥概率九讲~

相关文章

  • # 大数据的统计学基础

    概率论与统计学 概率论是统计学的基础,统计学冲锋在应用第一线,概率论提供武器。 我们在学习R的时候,会做过假设检验...

  • 假设检验(概率论)

    1. 提出问题 考虑T_all的泛化能力: 1.测试集上的性能与真正的泛化性能未必相同 2.测试集上的性能与测试集...

  • 算法面试重要问题记录

    2021.8.17 快手实习面试1、线性代数:线性优化、最小二乘法优化 2、概率论:假设检验的应用分析 3、算法...

  • 概率论复习五---假设检验

    假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 p-value的作用:p-value...

  • 2020-10-31

    今日再读《概率论与数理统计》--陈希孺。辨析了区间估计与假设检验的异同,2.1在讲连续型随机变量分布中直接引入了正...

  • 重要抽样分布:卡方分布(χ2分布)、t分布和F分布

    冒泡~:最近在回顾一些以前学过的概率论和数理统计的知识 发现这三个抽样分布经常出现,在参数估计和假设检验也会运用到...

  • 统计学笔记6 假设检验和p值

    假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差...

  • Python做假设检验

    目前看到的最全的假设检验的文章 python假设检验

  • R语言学习笔记_04

    假设检验 在R的内置函数中几乎囊括了所有常用的假设检验,常用的假设检验包括: 相关性分析包括Pearson相关系数...

  • 如何做推论统计分析报告?

    看本文内容前,确保你已经学过之前文章中的“假设检验”: 如何用最通俗易懂的方式理解假设检验 前面我们通过《假设检验...

网友评论

      本文标题:假设检验(概率论)

      本文链接:https://www.haomeiwen.com/subject/jobptltx.html