学习小组Day6笔记--xr

作者: xryyz | 来源:发表于2020-09-18 22:15 被阅读0次

    主要学习内容
    1.以dplyr包安装为例学习加载和安装的过程
    2.学习了dplyr的五个基础函数的用法
    mutate()新增列
    select()筛选列
    filter()筛选行
    arrange()按某1列或某几列对整个表格进行排序
    summarise()汇总
    3.dplyr两个实用技能
    管道操作 %>%
    count统计某列的unique值
    4.dplyr处理关系数据
    合并连接
    筛选连接
    集合操作

    1.R包的加载和安装

    1.1镜像设置

    options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
    

    1.2安装包

    install.packages(“包”) #包在CRAN网站上
    BiocManager::install(“包”) #包在Biocductor上
    

    1.3加载包

    library(包) 
    #或者
    require(包) 
    

    这里以dplyr包安装为例

    dplyr包 像操作数据库一样操作 R

    options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) 
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 
    install.packages("dplyr")
    library(dplyr)
    

    2.dplyr五个基础函数

    2.1新增列

    mutate(data,新增内容)mutate函数会保留修改后的列和修改之前的列

    mutate(test, new = Sepal.Length * Sepal.Width)
    

    2.2按列筛选

    select(data,筛选的要求)
    按列号和列名进行筛选

    2.3按行筛选

    filter(data, 筛选的要求)

    2.4按某1列或某几列对整个表格进行排序

    arrange(data,排序的要求)

    2.5汇总

    summarise(data, 需计算的要求和值)可结合group_by分组计算

    3.dplyr两个实用技能

    3.1管道操作

    %>%
    快捷键cmd/ctr + shift + M

    3.2count统计某列的unique值

    count(data,Species)

    4.dplyr处理关系数据

    三类连接:
    • 合并连接:向数据框中加入新变量,新变量的值是另一个数据框中的匹配观测。
    • 筛选连接:根据是否匹配另一个数据框中的观测,筛选数据框中的观测。
    • 集合操作:将观测作为集合元素来处理。

    4.1合并连接

    4.1.1内连接

    内连接保留同时存在于两个表中的观测,取交集
    inner_join(data1,data2, by = '链接内容')

    4.2外连接

    外连接则保留至少存在于一个表中的观测
    左连接:保留 x 中的所有观测
    left_join(data1,data2, by = '链接内容')
    最常用的连接是左连接,它会保留原表中的所有观测,即使它没有匹配。
    全连:保留 x 和 y 中的所有观测
    full_join(data1,data2, by = '链接内容')

    4.2筛选连接

    半连接:返回能够与y表匹配的x表所有记录semi_join
    semi_join(data1,data2, by = '链接内容')
    反连接:返回无法与y表匹配的x表的所记录anti_join
    anti_join(data1,data2, by = '链接内容')

    4.3集合操作

    简单合并

    bind_rows() #两个表格列数要相同
    bind_cols() #两个数据框有相同的行数
    

    合并的补充
    intersect(x, y)
    返回既在 x 表,又在 y 表中的观测。
    union(x, y)
    返回 x 表或 y 表中的唯一观测。
    setdiff(x, y)
    返回在 x 表,但不在 y 表中的观测。

    相关文章

      网友评论

        本文标题:学习小组Day6笔记--xr

        本文链接:https://www.haomeiwen.com/subject/wzuyyktx.html