美文网首页生信星球培训第八十七期
2020-11-04DAY6-添添-学习R包

2020-11-04DAY6-添添-学习R包

作者: 徐添添 | 来源:发表于2020-11-04 19:19 被阅读0次

    1、安装和加载R包

    1) 配置Rstudio的下载镜像
    2) 安装:install.packages(“包”)或者 BiocManager::install(“包”)

    取决于你要安装的包存在于CRAN网站还是Biocductor,可以谷歌搜到。

    3)加载:library(包)或者require(包)

    以dplyr为例】
    dplyrinstall.packages("dplyr")
    library(dplyr)

    2、学习dplyr五个基础函数

    示例数据直接使用内置数据集iris的简化版:test <- iris[c(1:2,51:52,101:102),]
    注意,井号开头的是代码运行记录。可以和自己的运行结果做对比

    image.png
    1)mutate():新增列

    mutate(test, new = Sepal.Length * Sepal.Width):在表格最后新增一个叫“new“的列= Sepal.Length * Sepal.Width(这两列的数值相乘)

    image.png
    2)select():按列筛选

    ①按列号筛选:
    select(test,1):选出第一列
    select(test,c(1,5)):选出第一和第五列
    ②按列名筛选:
    select(test, Petal.Length, Petal.Width):选出“Petal.Length”列和“Petal.Width”列
    vars <- c("Petal.Length", "Petal.Width") select(test, one_of(vars)):同上

    3)filter():筛选行

    filter(test, Species == "setosa"):选出“Specis”列下行名为“setosa”的行
    filter(test, Species == "setosa"&Sepal.Length > 5 ):选出选出“Specis“”列下,行名为“setosa”且“Sepal.Length”列 > 5的行
    filter(test, Species %in% c("setosa","versicolor")):选出“Species ”列下行名为"setosa"或"versicolor"的行

    4)arrange():按某1列或某几列对整个表格进行排序

    arrange(test, Sepal.Length):将Sepal.Length列按从小到大排序
    arrange(test, desc(Sepal.Length)):将Sepal.Length列按从大到小排序

    5)summarise():对数据进行汇总操作,结合group_by使用实用性强

    summarise(test, mean(Sepal.Length), sd(Sepal.Length)):计算Sepal.Length的平均值和标准差
    group_by(test, Species)
    summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
    :先按照Species分组,然后计算每组Sepal.Length的平均值和标准差

    3、dplyr两个实用技能

    1)管道操作:%>%(cmd/ctr + shift + M)

    test %>%
    group_by(Species) %>%
    summarise(mean(Sepal.Length), sd(Sepal.Length))
    表示一直在操作test这个变量,不用变量来回转换
    不用管道操作就需要写成:
    group_by(test, Species)
    summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

    2)count统计某列的unique值

    ’count(test,Species)`:计算“Spcies”列下行名相同的行各有几行。


    image.png

    4、dplyr处理关系数据

    即将2个表进行连接,注意:不要引入factor

    Factor就是因子,它属于一种比较特殊的数据类型,通常会给初学者带来一些不必要的烦扰,所以说我们没有把它作为一个必修的内容放在课程里面,而是先让大家避开他,如果安装的是4.0以上版本的R语言,就说你是新安装的话,就不用去管Strong at factor等于false是什么意思,因为他已经被做为了一个默认的设置,但如果是4.0以下的版本以前的版本,那么这句代码就是非常有用的,Options开头代表这是一句设置,意思就是在生成数据框,也就是我们之前所说的那个表格的时候,不要把字符串变成因子。

    options(stringsAsFactors = F)
    test1 <- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'), stringsAsFactors = F)
    test2 <- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6), stringsAsFactors = F)

    image.png
    1)inner_join:内联取交集
    image.png

    用x内联:把表1和表2中相同的x取出来,再取出相应的y和z

    2)left_join:左联
    image.png

    在表2中找出表1x对应的所有y
    在表1中找出表2x对应的左右z

    3)full_join:全联
    image.png
    4)semi_join:半连接,返回能够与y表匹配的x表所有记录
    image.png
    5)anti_join:反连接,返回无法与y表匹配的x表的所记录
    image.png
    6)简单合并

    在相当于base包里的cbind()函数和rbind()函数;
    注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数


    image.png

    相关文章

      网友评论

        本文标题:2020-11-04DAY6-添添-学习R包

        本文链接:https://www.haomeiwen.com/subject/scwgvktx.html