美文网首页生信星球培训第八十期
生信星球学习小组第80期 Day6笔记--ZJUSKY

生信星球学习小组第80期 Day6笔记--ZJUSKY

作者: ZJUSKY | 来源:发表于2020-09-19 20:44 被阅读0次

    R包的学习

    设置镜像

    在tools-options中是可以更改CRAN的镜像的,但是没法更改Bioconductor。(有时CRAN中没有收录的包可以在Bioconductor中尝试下载)
    在R的配置文件中进行修改即可。

    file.edit('~/.Rprofile')
    

    然后再输入

    options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
    

    保存退出即可。

    options()$repos      #查看CRAN的镜像
    options()$BioC_mirror   #查看Bioconductor的镜像
    

    安装包

    一般先尝试在CRAN中下载包。

    install.packages("包的名字")
    

    如果没有这个包可以尝试在Bioconductor中下载。

    BiocManager::install(“包”)
    

    加载包

    library(包)
    require(包)
    

    安装好包之后一定要加载才可以使用。

    以下以dplyr为例简单介绍R包

    dplyr

    出处:AI入门学习
    dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等,是非常高效、友好的数据处理包.

    安装、加载dplyr

    install.packages("dplyr")
    library(dplyr)
    

    示例所用数据为内置iris的简化版。

    Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

    test <- iris[c(1:2,51:52,101:102),]
    

    dplyr的5个基本函数

    1.新增列,mutate()

    增加一列,命名为new,输出结果为Sepal.Length * Sepal.Width。


    2.按列筛选,select()

    选择第二列,第1列和第3列,Petal.width这列。


    3. 按行筛选,filter()

    4.按列的数值大小排序,arrange()

    5.汇总,summarise()

    相关文章

      网友评论

        本文标题:生信星球学习小组第80期 Day6笔记--ZJUSKY

        本文链接:https://www.haomeiwen.com/subject/rhfyyktx.html