美文网首页生信星球培训第111期
学习小组Day6笔记--潘潘

学习小组Day6笔记--潘潘

作者: 三点水的番薯 | 来源:发表于2021-06-16 22:35 被阅读0次

    学习R包

    思维导图

    思维导图.png

    1. 安装和加载R包

    安装:install.packages(“包”) OR BiocManager::install(“包”)
    加载:library(包) OR require(包)

    options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
    install.packages("dplyr")
    library(dplyr)
    

    2. dplyr五个基础函数

    dplyr包主要用于数据清洗和整理,主要功能包括:行选择、列选择、统计汇总、窗口函数,数据框交集等。
    (1)新增列 mutate()

    mutate函数.png
    (2)按列筛选select()
    one_of函数索引.png
    ①按照列号筛选
    ②按照列命筛选
    (3)按行筛选filter()
    filter提取列名.png
    (4)按某一列或某几列对整个表格进行排序arrange(),默认是从小到大,加入desc()是从大到小。
    arrange.png

    (5)汇总summarise(),对数据进行汇总,结合group_by()
    group_by()这个函数用来定义分组变量,并没有直接改变数据的结构。
    summarise()

    n()、n_distinct(x)#计数
    mean(x)、median(x)#中间值
    sd()、mad(x)、IQR(X)#离散程度
    quartile()、min(x)、max(x)#极端值
    first()、last()、nth()#位置
    
    Summarise.png

    3. dplyr两个实用技能

    (1)管道操作%>%
    管道命令:在linux中,管道命令|仅能处理经由前面一个命令传来的正确信息。也就是standard output的信息。

    管道操作.png

    (2)统计某列的unique值count()

    4. dplyr处理数据关系

    注意:不要引入factor
    (1)取两个列表的交集inner_join

    取交集.png
    (2)左连left_join
    左连.png
    (3)全连full_join
    全连.png
    (4)返回能够与y表匹配的x表所有记录,半连接semi_join
    semi_join.png
    (5)返回无法与y表匹配的x表的所记录,反连接anti_join
    anti_join.png
    (6)简单合并:在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数。
    test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
    test1
    ##   x  y
    ## 1 1 10
    ## 2 2 20
    ## 3 3 30
    ## 4 4 40
    test2 <- data.frame(x = c(5,6), y = c(50,60))
    test2
    ##   x  y
    ## 1 5 50
    ## 2 6 60
    test3 <- data.frame(z = c(100,200,300,400))
    test3
    ##     z
    ## 1 100
    ## 2 200
    ## 3 300
    ## 4 400
    bind_rows(test1, test2)
    ##   x  y
    ## 1 1 10
    ## 2 2 20
    ## 3 3 30
    ## 4 4 40
    ## 5 5 50
    ## 6 6 60
    bind_cols(test1, test3)
    ##   x  y   z
    ## 1 1 10 100
    ## 2 2 20 200
    ## 3 3 30 300
    ## 4 4 40 400
    

    代码来自于生信星球公众号

    相关文章

      网友评论

        本文标题:学习小组Day6笔记--潘潘

        本文链接:https://www.haomeiwen.com/subject/gnsfyltx.html