学习生信的第6天,已经悄无声息的快到课程结束的时间了。今天主要接触学习了R包。
R包是多个函数的集合,具有详细的说明和示例。学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。
安装和加载R包
1.镜像设置(这里真的好麻烦,我的电脑正好是属于不合群的那一类,教程里的运行命令总是出现错误提醒,好在最后解决了)
RStudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件。
首先用file.edit()来编辑文件:
file.edit('~/.Rprofile')我就是在这里出现了错误,电脑显示没有权限,所以操作不了这一步
因为我的电脑操作不了.Rprofile,不能直接在.Rprofile文件里编辑运行命令,这里直接运行命令:
options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="http://mirros.ustc.edu.cn/bioc/")
如果.Rprofile成功保存后需要重启RStudio,然后确定是否配置成功,如下:
5-1.png
2.安装
安装命令如下:
install.packages
BiocManager::install
两个命令都可以,主要取决于要安装的包存在于CRAN还是Biocductor,一般都可以在谷歌上搜索到存在于哪里,例如install.packages(“dplyr”)
3.加载
library
require
都可以,例如:library(dplyr)
4.dplyr五个基本函数
test <- iris[c(1:2,51:52,101:102),]作为示例数据集
mulate()新增列
select()按列筛选
按列号筛选
select(test,1)第1列
select(test,c(1,5))第1列和第5列
select(test,Sepal.Length)选中列
按列名筛选
select(test, Petal.Length, Petal.Width)
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))
filter()筛选行
arrange()按某一列或某几列对整个表格进行排序
arrange(test, Sepal.Length)默认从小到大排序
arrange(test, desc(Sepal.Length))用desc从小到大
summarise()汇总,对数据进行汇总操作
summarise(test, mean(Sepal.Length), sd(Sepal.Length))计算Sepal.Length的平均值和标准差
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
按照Species分组,计算每组Sepal.Length的平均值和标准差
后面还讲到了dplyr的两个实用技能以及用dplyr处理关系数据的几种情况,不做过多说明,理解命令的意思,记得怎么用。今天的课程是以dplyr包为例,我另外下载了另外几个包,发现会用包里的函数语言,都是一样的,主要是要多多搜索,自己多动手操作,这个很重要。
网友评论