Assignment: 环境污染
Data:
数据由332个csv文件组成,内容是美国332个地点的污染物PM检测数据,包含3个变量:
date(观测日期 YYYY-MM-DD)
sulfate(硫酸盐:该日空气中硫酸盐的含量(以每立方米微克计)
nitrate(当天空气中硝酸盐含量(以每立方米微克计))
specdata.zip解压之后文件 每个csv表格数据组成part1 pollutantmean
问题简述:计算给定文件的sulfate or nitrate 的平均值
函数的构造思路难点:①批量读取csv 参考:R语言-基础操作(批量数据读取和输出)
②读取id 范围之内各个文件:(001-010).csv、(010-099).csv、(100-332).csv. 即 0个数 由 id的位数 决定,提供一个思路,str_dup (R语言字符串处理包stringr)
③ 数据合并操作,行合并,rbind
代码如下:
pollutantmean函数part2 complete
问题简述: 读取给定文件数据,能够统计完整数据的个数。
难点:①去除NA的获取完整数据的方法:
分别举例:使用的数据是datasets包中的,airquality 数据集
形式1:选取"Solar.R", "Wind"两列,并选出"Solar.R"列数据非NA和"Wind"数据大于12的子集
形式一实例形式2:
形式二实例形式3:
形式三实例其实有好多方法,我觉得有必要整理,所以。。。
回归本题,代码如下:
complete函数part3 corr
问题简述: 设置一个threhold,用于描述完整数据条数,大于这个值,拿过来求correlation,,然后把值都存在一个向量。
难点: ①什么是相互关系、如何求相互关系
②cor( X, use = ?, method = ?) , 要特别讲一下,use的作用,an optional character string giving a method for computing covariances in the presence of missing values. This must be (an abbreviation of) one of the strings "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs". 用来存在Na条件下,怎么计算的?
代码如下:(可以直接调用complete函数,读者自己尝试)
corr函数参考:
https://github.com/biobyelogy/jhu-02-r-programming/blob/master/W02%20Assignment.md
https://www.cnblogs.com/weibaar/p/4162023.html
网友评论