美文网首页统计学
统计学基础与R-比例分析

统计学基础与R-比例分析

作者: 思考问题的熊 | 来源:发表于2017-10-07 20:18 被阅读82次

写在前面

入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用R语言进行简单地计算和分析。
说明:简书编辑器不支持latex公式,点击阅读博客原文

比例分析

在之前几节内容中提到了均值分析和比较,但有时候我们关心的并不是均值而是比例(proportion)。

单比例检验

对于n比较大(通常为$np \geq5$ 同时 $nq \geq5$ )的样本来说,根据中心极限定理,样本近似于正态分布,可以使用z检验,其检验统计量计算公式为:

$$z = \frac{p_o-p_e}{\sqrt{p_oq/n}}$$

其中,$p_o$表示观测到的比例,$p_e$为预期比例,n表示样本量,$q=1-p$。

如果样本比较小,则使用二项分布进行统计。

在R中,对于小样本,采用binom.test(),对于大样本使用正态分布近似二项分布,利用prop.test()进行分析。
在单样本比例检验中,我们关心的是具有同种特性的两个群体,在该特性总体中所占有的比例情况。例如,小鼠中公鼠母鼠各有一半,有100只患有某种疾病,其中有公鼠60只,母鼠40只。想知道是否公鼠患病率比母鼠高。在该问题中成功次数为公鼠患病数55,总次数为100,预期比例为50%(公母鼠数量相等)。

prop.test(60, 100, p = 0.5, alternative = "greater")

#   1-sample proportions test with continuity
# correction
#
# data:  60 out of 100, null probability 0.5
# X-squared = 3.61, df = 1, p-value = 0.02872
# alternative hypothesis: true p is greater than 0.5
# 95 percent confidence interval:
#  0.5127842 1.0000000
# sample estimates:
#   p
# 0.6

其中,x为成功的次数,n为总测试,p为要测试的概率大小。在结果中,显示了卡方检验的统计量值,自由度和p值和置信区间,最后给出了样本概率估计值。

双比例检验

如果我们已知两组具有不同特性(A和B)样本的样本量和这两组样本中具有某种共同特性(C)的个体数量(也就是知道了C特性各自群体比例和总体比例),想要计算具有C特性的个体在A特性群体和B特性群体中的比例是否一样,就需要用到双比例检验

当样本数量较小时(所有np和nq都小于5),通常采用非参数检验Fisher Exact probability test 进行分析。当样本力量较大时,我们还是近似使用正态分布z检验来进行预测。

例如,男生500人,女生500人,其中喜欢阅读的男生有400人,喜欢阅读的女生有460人。男生喜欢阅读的比例是否比女生高。我们假设男生喜欢阅读的比例比女生高,则备择假设是男生喜欢阅读的比例比女生低。

 prop.test(x = c(400, 460), n = c(500, 500), alternative = "less")

#   2-sample test for equality of proportions with
# continuity correction
#
# data:  c(400, 460) out of c(500, 500)
# X-squared = 28.912, df = 1, p-value = 3.787e-08
# alternative hypothesis: less
# 95 percent confidence interval:
#  -1.0000000 -0.0824468
# sample estimates:
# prop 1 prop 2
#   0.80   0.92

由结果可知,p<0.05,拒绝原假设,即男生喜欢阅读的比例比女生低。

卡方分布

$\chi^2$分布可以通过原假设,得到一个统计量来表示期望结果和实际结果之间的偏离程度,进而根据分布,自由度和假设成立的情况,得出观察频率极值的发生概率(比当前统计结果更加极端的概率)。计算方法是对概率分布中的每一个频率,用期望频数和实际频数差的平方除以期望频数,最后把所有结果相加。得到的统计量结果越大,说明差别越显著,数值越小说明观察和期望的差别越小,当观察频数和期望频数一致是卡方为0。其实就是在比较观测到的比例和期望的比例的关系。

$$\chi^2=\sum \frac{(O-E)^2}{E}$$

卡方分布就可以用来检验某个分类变量各类的出现概率是否等于指定概率,可以检验数据的拟合优度(指定的一组数据与指定分布的吻合度),也可以用来检验两个变量的独立性(两个变量之间是否存在某种关联)。

在使用卡方检验时,需要的一个参数被称为自由度,指的是独立变量的个数(组数减去限制数)。通常,二项分布已知p,泊松分布已知$\lambda$,正态分布已知$\mu$和$\sigma^2$时的自由度是n-1。进行独立性检验时,h行kl列联列表的自由度是$(h-1)\times(k-1)$。


加入靠谱熊基地,和大家一起交流

相关文章

  • 统计学基础与R-比例分析

    写在前面 入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用...

  • CDA level 1 抽样估计&假设检验

    CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试...

  • CDA level I 数据分析概念与统计学基础

    CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试...

  • CDA Level 1 方差分析和一元线性回归分析

    CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试...

  • 统计学基础与R- 多样本均值分析

    写在前面 入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用...

  • 统计学基础与R-相关性分析

    写在前面 入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用...

  • 统计学基础与R-估计

    写在前面 入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用...

  • 统计学基础与R-单双样本均值分析

    写在前面 入门生物信息,所有人都绕不开统计基础知识和相关实现方式。本章我们将简要介绍统计学相关基础知识以及如何使用...

  • 统计学学习方法推荐

    学习目标: 统计学基础知识 统计(假设)检验相关 用R语言进行统计学相关分析计算 统计学基础知识: 统计学入门路线...

  • 如何快速掌握数据分析与数据挖掘?

    做数据分析最重要的还是本身的逻辑能力和是否有统计学的基础。 数据分析师需要什么技能: 数据分析技能、统计学基础、计...

网友评论

    本文标题:统计学基础与R-比例分析

    本文链接:https://www.haomeiwen.com/subject/duksyxtx.html