说实话,这最简单的10道题我已经做了3遍了,每一遍都有新的体会。这一次我会把详细的记录下来,以供以后参考。
1.打开R-studio 告诉我他的工作目录
getwd()

2.新建6个向量,基于不同的原子类型。(重点是字符串,数值,逻辑值)

3.告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么?
此次打开的Rproject的工作目录
4.新建一些数据结构,比如矩阵,数组,数据框,列表等重点是数据框,矩阵)

数据太大 矩阵太小 警告了一次!!



这个数据框建立了很久,原因是因为有一个“,”没有打出来,尴尬 一定要仔细仔细。
5.在你新建的数据框进行切片操作,比如首先取第1,3行, 然后取第4,6列

要建立向量后才可以取到

数据框建立小了,没有4,6列
6.使用data函数来加载R内置数据集 rivers
描述它。并且可以查看更多的R语言内置的数据集:https://mp.weixin.qq.com/s/dZPbCXccTzuj0KkOL7R31g

7.下载 https://www.ncbi.nlm.nih.gov/sra?term=SRP133642 里面的 RunInfo Table
文件读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。


str函数
structure,紧凑地显示对象内部结构,即对象里有什么。
8.下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229 里面的样本信息sample.csv
读入到R里面,了解这个数据框,多少列,每一列都是什么属性的元素。

里面的seq=\t,导致表格没有了间隙,读不出列了,下面删除了
9.把前面两个步骤的两个表(RunInfo Table 文件,样本信息sample.csv)关联起来,使用merge函数。

合不出来 难受。 分组合并错误,应该选择Accession组
10.基于下午的统计可视化
对前面读取的 RunInfo Table 文件在R里面探索其MBases列,包括 箱线图(boxplot)和五分位数(fivenum),还有频数图(hist),以及密度图(density) 。
把前面读取的样本信息表格的样本名字根据下划线分割看第3列元素的统计情况。第三列代表该样本所在的plate
根据plate把关联到的 RunInfo Table 信息的MBases列分组检验是否有统计学显著的差异。
分组绘制箱线图(boxplot),频数图(hist),以及密度图(density) 。
使用ggplot2把上面的图进行重新绘制。
使用ggpubr把上面的图进行重新绘制。
随机取384个MBases信息,跟前面的两个plate的信息组合成新的数据框,第一列是分组,第二列是MBases,总共是384*3行数据。

了解了apply函数循环,画图上课讲太快了 没跟上
网友评论