美文网首页Python data analyse & AI
假设检验——常用假设检验与实例分析

假设检验——常用假设检验与实例分析

作者: 文婷_5250 | 来源:发表于2018-06-03 11:29 被阅读23次

    统计学划分:

    描述统计学

    使用特定的数字或图表来体现数据的集中和离散程度。如:统计每次考试的各项指标分布。

    1.集中趋势

    对于一组数据,如果只允许用一个数字去代表这组数据,那么这个数字如何选择?

    >均值:算术平均数,描述平均水平。

    Note:容易收到极端数据的影响。

    >中位数:按照大小排列所有数据,然后选择中间位置的数,描述中等水平。

    Note:如果中间位置的数据有两个,也就是总个数为偶数,中位数就是中间两个数的算术平均数。不会收到极端数据的影响,但缺乏敏感性。

    >众数:数据中出现最多的数,描述一般水平。

    >求众数的函数

    def get_more(arr):

                    more = []

                    arr_appear = dict((afar.count(a)) for a in arr)

                    if max(arr_appear.values())==1:

                            return#没有众数

                    else:

                            for k,v in arr_appear.items():

                                    if v ==  max(arr_appear.values()):

                                            more.append(k)

                    return more;

    Note:一组数据,可能会存在多个众数,也可能不存在。众数不仅适用于数值型数据,对非数值型数据也同样适用。缺乏唯一性,可能不能作为指标。

    2.离散程度的描述

    极差:

    最大值-最小值,简单描述数据的范围大小。

    方差:

    数据离中心越远越离散。var()

    标准差:

    方差的平方,与原数据单位一样,与方差一样表征数据离散程度。std()

    3.偏度

    对数据分布的偏斜程度的衡量。通过它的正负来判断数据是正偏还是负偏。也可用pandas 的方法skew()求出:

    a= Series(a)

    a.skew()

    正偏:大部分数据比均值要大

    负偏:大部分数据比均值要小

    4.蜂度

    数据分布峰态的度量指标。与正态分布进行比较。

    尖峰 中峰 低峰

    超额峰度

    a.kurt()

    5.分位数

    将数据按照从小到大排列,然后分成两组,较小的一组元素个数占整个样本元素个数的值

    6.数据基本特征描述

    Describe()

    7.多元数据的数据特征

    方差与协方cov(),相关系数corr()

    推断统计学

    根据样本数据推断总体数据的特征。如:产品质量检查,一般采用抽样,根据样本的质量合格率作为总体的质量的一个估计。

    只要有数据,统计学就有用武之地,广泛运用于经济学,医学,心理学,大数据分析,机器学习等。

    假设检验

    对于提出的假设进行检验,看它是不是真的。

    基本思想:

    1.小概率思想

    2.反证法思想

    零假设与备择假设--无罪推定原理

    零假设:假定一个总体参数等于某个特定值的一个声明,如H0: p = 0.5

    备择假设:假定该总体参数为零假设中假设的值除外的值,H1: p>0.5

    选择原理:如希望假设的论断成立,设为备择假设;如希望假设不成立,设为零假设。

    两类错误

    p-value

    相关文章

      网友评论

        本文标题:假设检验——常用假设检验与实例分析

        本文链接:https://www.haomeiwen.com/subject/arhjsftx.html