美文网首页
环境与生态统计||模拟10%超标规则

环境与生态统计||模拟10%超标规则

作者: 周运来就是我 | 来源:发表于2018-10-20 21:40 被阅读67次

钱老师在书中的这一章介绍了R语言的数据类型以及语法结构特别推荐了R Commander给初学者使用。这些内容本笔记略过。主要讲述本章中提到的一个案例:【如果水体检测值有10%超过标准就被列为“受损的”水体】这个10%是否合理。

要检验这个标准是否合理,最简单的办法就是分批次地在已达标额水体中不断重复采样并测定TP,然后根据这个规定来确定我们把水体判断为“受损”水体的几率,或者反过来采受损水体。显然自然水体的变化多样,这样的操作实际上并不可行。而,如果我们知道水体的TP浓度变量的分布,我们可以用计算机模拟实际的采样过程。采集水样和测定浓度可以从随机分布中抽取一个随机数来模拟。模拟是评估随机变量行为的一种统计学工具。

由于大多数水质浓度变量都可以看做服从对数正态分布,我们可以用浓度的对数值并假设满足正态分布。

在我们的案例中假设水质标准的对数值是3 ,并且污染水体水质浓度对数的分布为N(2,1)。 水质不达标的时间超过10%,该水体被认为受损水体。我们可以估算出水体在环保局10%的规则下被误认为是达标水体的概率。假设我们有10个样本,未受损意味着只有一个或没有观测值是超过3的。对每次测量浓度小于3是达标的,对某一水体10个样本中总超标的样本个数小于2(即,0和1)是达标的。

Norm1 <- as.data.frame(matrix(rnorm(10000*10, mean=2, sd=1), ncol=10))
rownames(Norm1) <- paste("sample", 1:10000, sep="")
colnames(Norm1) <- paste("obs", 1:10, sep="")
Norm1$violations <- with(Norm1, 
                         (obs1>3)+(obs2>3)+(obs3>3)+(obs4>3)+(obs5>3)+ 
                           (obs6>3)+(obs7>3)+(obs8>3)+(obs9>3)+(obs10>3))
Norm1$impaired <- with(Norm1, as.numeric(violations<2))

numSummary(Norm1[,"impaired", drop=FALSE], statistics=c("mean", "sd", "IQR",
                                                        "quantiles"))


   mean      sd IQR 0% 25% 50% 75% 100%     n
 0.5136 0.49984   1  0   0   1   1    1 10000

可以看出,我们用10000和水体,每个水体测10个样本,把污染水体判断为达标的概率是0.51。也就是将近一半的都判断错了。

通常,犯错的概率高要归结于观测值的数量少。我们可以用同样的模拟方法来看如果每个水体样本量增大到100的话,犯错的概率有没有降低。那么如果超过3的样本数小于10的话就认为是达标的。

Norm2 <- as.data.frame(matrix(rnorm(10000*100, mean=2, sd=1), ncol=100))
rownames(Norm2) <- paste("sample", 1:10000, sep="")
colnames(Norm2) <- paste("obs", 1:100, sep="")
Norm2$violations <- apply(X=Norm2,MARGIN = 1,FUN = function(x){
  return(sum(x>3))
})
Norm2$impaired <- with(Norm2, as.numeric(violations<=10))

numSummary(Norm2[,"impaired", drop=FALSE], statistics=c("mean", "sd", "IQR",
                                                        "quantiles"))

 mean        sd IQR 0% 25% 50% 75% 100%     n
 0.064 0.2447652   0  0   0   0   0    1 10000

当样本量增加时把污染样本判断为达标样本的概率减小了。但是我们看看把达标样本判断为污染样本的概率。假设达标水体水质浓度对数的分布为N(2,0.75)

Norm1 <- as.data.frame(matrix(rnorm(10000*10, mean=2, sd=0.75), ncol=10))
rownames(Norm1) <- paste("sample", 1:10000, sep="")
colnames(Norm1) <- paste("obs", 1:10, sep="")
Norm1$violations <- with(Norm1, 
                         (obs1>3)+(obs2>3)+(obs3>3)+(obs4>3)+(obs5>3)+ 
                           (obs6>3)+(obs7>3)+(obs8>3)+(obs9>3)+(obs10>3))
Norm1$impaired <- with(Norm1, as.numeric(violations>2))

numSummary(Norm1[,"impaired", drop=FALSE], statistics=c("mean", "sd", "IQR",
                                                        "quantiles"))

 mean        sd IQR 0% 25% 50% 75% 100%     n
 0.0536 0.2252379   0  0   0   0   0    1 10000
Norm2 <- as.data.frame(matrix(rnorm(10000*100, mean=2, sd=0.75), ncol=100))
rownames(Norm2) <- paste("sample", 1:10000, sep="")
colnames(Norm2) <- paste("obs", 1:100, sep="")
Norm2$violations <- apply(X=Norm2,MARGIN = 1,FUN = function(x){
  return(sum(x>3))
})
Norm2$impaired <- with(Norm2, as.numeric(violations>10))

numSummary(Norm2[,"impaired", drop=FALSE], statistics=c("mean", "sd", "IQR",
                                                        "quantiles"))
   mean        sd IQR 0% 25% 50% 75% 100%     n
 0.3061 0.4608948   1  0   0   0   1    1 10000

虽然当样本量增加时把污染样本判断为达标样本的概率减小了,但是把达标样本判断为污染的概率却增加了。

第一章:绪论
第二章:R语言
第三章:

相关文章

  • 环境与生态统计||模拟10%超标规则

    钱老师在书中的这一章介绍了R语言的数据类型以及语法结构特别推荐了R Commander给初学者使用。这些内容本笔记...

  • R for data science ||探索性数据分析

    什么是探索性数据分析 参看之前的文章:数量生态学笔记||数据探索环境与生态统计||探索性数据分析环境与生态统计||...

  • 环境与生态统计||统计假设

    统计思维本质上讲是归纳性的,它不像数学是演绎性的要借助于几条定理来推理,所以统计假设是统计分析和推断的基础。这个基...

  • 环境与生态统计||统计建模概述

    什么是统计建模 统计建模是以计算机统计分析软件为工具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,...

  • 环境与生态统计笔记||绪论

    在上一本《数量生态学:R语言应用》将要结束的时候,我就开始物色下一本可以按章节更新笔记的书籍。这时排在我面前的是三...

  • 环境与生态统计||线性模型

    在客观世界中普遍存在着变量之间的关系,一般说来可以分为确定性的因果关系以及非确定性的相关关系。回归分析是研究相关关...

  • 环境与生态统计||非线性模型

    什么是非线性模型 如果回归模型的因变量是自变量的一次以上函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非...

  • 环境与生态统计||假设检验

    假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分...

  • 机器学习实战||机器学习简介

    又要开始新的旅程了。 这一次是大名鼎鼎的《机器学习实战》。在2018年10月20日着手写《环境与生态统计:R语言应...

  • 淘宝新规,看了吓一跳,原来不是想象的那样

    自10月10号,阿里妈妈推广规范,为了构成更加健康,有序的网络营销环境,推动淘宝客生态健康,新增规则“不能采用代购...

网友评论

      本文标题:环境与生态统计||模拟10%超标规则

      本文链接:https://www.haomeiwen.com/subject/eovpzftx.html