学习小组day6--呛

作者: 呛_27c5 | 来源:发表于2020-05-17 02:57 被阅读0次

    R包的使用举例

    如何配置镜像

    前面提到过,配置镜像是为了加快下载速度,所以 首先 我们要先配置镜像。具体参考文章:你还在每次配置Rstudio的下载镜像吗
    我在这里简单概括一下文章的操作,首先要输入代码

    options函数就是设置R运行过程中的一些选项设置
    options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#对应清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")#对应中科大源
    当然可以换成其他地区的镜像

    首先先解读一下上面的代码,options函数就是设置R运行过程中的一些选项设置,,repos代表的是下图的repository image.png
    这个多数在刚装Rstudio的时候就设置了,CRAN是R默认使用的R包仓库,此外还有几个软件包仓库,而Bioconductor是基因组数据分析相关的软件包仓库,所以第一个options的代码设置的是CRAN的镜像,如果要下载Bioconductor的包,这个镜像是没有办法用的;另外即使设置了这里,Rstudio也不是每次都能真的从CRAN去下载包,可以通过options()$repos来检验,如图 image.png

    所以第二个options就是设置Bioconductor的镜像的。options()$BioC_mirror可以查询镜像是否设置成功,但是,这两个options需要每次打开Rstudio的时候都操作,很是麻烦,所以有个简便的方法。

    首先先补充一下背景知识:Rstudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成的)

    那我们只要设置一个有这两行options的Rprofile文件就好了呀。
    首先,file.edit()来编辑文件

    image.png image.png

    输入代码后,因为我之前已经设置过Rprofile了,所以再输入代码时就会显示出我之前设置的Rprofile的内容,保存Rprofile然后退出Rstudio,再重新进入Rstudio后,options()$reposoptions()$BioC_mirror检查一下吧,是不是都自动运行了呢?
    设置完镜像后,我们开始R报的安装吧

    R包的安装

    首先电脑联网,毕竟巧妇难为无米之炊,你不联网,输入再多的代码也白搭。
    install.packages(R包名字)只能用于安装发布在CRAN上的包
    BiocManager::install(R包名字)用于Bioconductor中的。至于你要找的R包到底存在哪里,就只能你自己去谷歌了。以dplyr包为例(这个包常用于数据处理,具体可参考dplyr 包的强大之处

    image.png
    此处省略一大堆代码进程后 image.png
    下载安装完成。接着得把这个包加载到Rstudio中,
    加载命令library(包)或者require(包) image.png

    若没有加载这一步,则会报错,例如

    image.png
    所以下载完一定要记得加载哦
    然后几个常用的代码具体参考https://m.umu.cn/session/article/2f1vo7cc1
    其中讲一两个自己瞎捣鼓的地方mutate是改变后并保留之前的东西,transmute是改变后删除原来的东西,我添加了一列新的数据new image.png
    然后赋值给了test1,并想看看test与test1有什么一样的列(select是选择列,filter是行)
    image.png 事实证明括号里test1的位置不能是个data表格,必须是单纯的数据列。所以重新设置 image.png
    然后vars就长这样了 image.png
    然后选择test中vars有的列,给vars加一列test没有的列new,之后再选择与test1和test比较
    image.png

    下面这两个代码也很重要,截图子生信星球

    image.png
    image.png

    dplyr两个实用技能

    首先看看这个【r<-基础|分析】初学者学习tidyverse

    %>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。

    符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。

    image.png

    所以代码之间只要有%>%连着,就会自动下一步,省的每次都要重新赋值。

    然后是count统计某列的unique值


    image.png

    关于表格的合并部分参考这篇文章最后的部分,我是按照他的做了一遍,实在太晚了就不整理我的结果了。

    相关文章

      网友评论

        本文标题:学习小组day6--呛

        本文链接:https://www.haomeiwen.com/subject/eytjohtx.html