美文网首页
R包开发的一些细节(1)

R包开发的一些细节(1)

作者: Shaoqian_Ma | 来源:发表于2020-08-05 09:44 被阅读0次

    最近在忙着开发COVID19的分析Shiny和R包,参考了很多R包和网页开发的教程。这里先简单介绍一些我的踩坑经验:

    正式发布R包后,我会介绍每个函数的参数设计和功能设计,以及详细的开发过程

    为了方便测试,我们可以采用downsampled data,或者自己制作simulated data,比如bioconductor上就有可以制作simulated single cell data object来衡量分析软件的performance。
    比如下面我选择部分病毒样本进行分析,节约时间:

    seqkit sample --proportion 0.1 Gisaid_RMD.fasta > Gisaid_RMD_10.fasta
    [INFO] sample by proportion
    [INFO] 4521 sequences outputted
    

    Check

    可以直接check(),或者check_rub(),前者只是初步检查,后者要求更加严格,后者的check结果基本上就是上传到CRAN后自动审核的结果。所以如果你的包能通过check_rub()的检查,那么恭喜你,至少你的包已经满足了通过CRAN初筛的要求了。

    R包开发出现比较多的问题是:no visible global function definition。一般是note的形式

    这种情况,一般是在函数内部有的对象没有进行声明造成的(只需要在函数内部额外添加声明即可,因为R会以为这个对象莫名其妙的存在会导致和外部变量冲突),或者有的函数没有进行import,如果没有import,在example运行的时候也会报error(只需要在roxygen2模板里插入@importfrom + 包名 + 函数 即可)

    文件不宜过大,特别是data,可以尝试save函数加上compress参数,R包要求build之后小于5MB
    注意一点,CRAN的check有时不兼容bioconductor的包,尤其是比较老的包,比如Biostring。所以如果要用类似translate这样的函数,可以用seqinr包里的的代替,或者自己手写函数代替它。否则Check会报错:dependency error

     Note: significantly better compression could be obtained
               by using R CMD build --resave-data
                         old_size new_size compress
         covid_annot.rda    759Kb    480Kb       xz
         nucmer.rda         1.3Mb    397Kb       xz
         nucmerr.rda        1.6Mb    530Kb       xz
         refseq.rda          14Kb      8Kb    bzip2
    

    如果报错和xlim,ylim有关,很可能你的数据有缺省值或者0(比如对0取log),有时说明是抽样数据的问题。我当时用的数据是downsampled data,一方面减少存储,一方面运行更快,而且产出结果基本不受影响。

    最好不要在check examples时点击stop,可能导致接下来的测试无法正常读取数据,需要全部退出R.studio

    Bioconductor check

    • 需要用devel版本进行测试,安装R4.0(我装的是4.0.2)。在bioconductor上正式发表包,开发者必须使用最新的R。
      记住:每更新一次R版本都要重新安装Rtools! 否则关键软件会安装失败,比如devtools等需要编译的包。而且Rtools要安装在win-library目录下,记得添加环境变量。
      如果你的包通过了CRAN的要求,想尝试bioconductor,注意以下几个方面,bioconductor会更注重一些细节问题

    • 补充文档:https://r-pkgs.org/vignettes.html

    • http://cran.fhcrc.org/doc/manuals/R-exts.html#Writing-package-vignettes
      vignettes非常重要!draft vignettes时,需要预先devtools::install(),否则会报错:找不到R包。因为vignettes和readme不一样,readme用Rmarkdown生成时只需要load()就可以,但是vignettes因为在正常R包开发中(CRAN)是非必需的,而且形式比较自由,所以非必需的目录下的R文件运行之前请保证运行过devtools::install()
      vignettes的风格可以自定,这里我推荐:

    output:
      BiocStyle::html_document:
        toc_float: true
        fig_caption: true
        number_sections: true
    bibliography: [bibliography.bib, packages.bib]
    

    这是bioconductor标准的文档风格,bib选项可以自定义引用。可以引用paper也可以引用R包,很方便。

    td<-tempdir()
      #setTmpDir(td)
    
      Total <- 11000
      data("nucmerr")
      data("assays")
      AssayMutRatio(nucmerr = nucmerr,
                    assays = assays,
                    totalsample = Total,
                    plotType = "logtrans",
                    outdir = td)
    #file.exists()检查文件是否存在
      expect_true(file.exists(file.path(td,"Charite-E",".png")))
      expect_true(file.exists(file.path(td,"Charite-RdRP",".png")))
      expect_true(file.exists(file.path(td,"ChinaCDC-N",".png")))
    
    • 添加数据的引用,完善数据说明也很重要。不管是data目录还是extdata目录,data都要有完整的说明文档

    • 关于函数的output设置:无outdir则直接输出到屏幕,适合vignettes的制作。

    • 关于DESCRIPTION文件:biocViews变成必选,至少有两个terms才可以。

    • 关于inst文件夹:inst是R包里面形式最自由的,任何你想放的东西都可以放,比如extdata。bioconductor会注重extdata,尤其是workflow类型的包,因为往往涉及raw data的处理,比如fasta文件。这时bioconductor会要求你把raw data放到extdata目录下,而且配置一个详细的说明文档来说明raw data的来源。比如我们开发的包要用到nucmer.snps文件,那么这个data是怎么从downloaded fasta用shell脚本得到的,shell脚本也要放上,方便其他用户重复你的结果。

    • 文档的format很重要:每一行的char不要太多

    • 关于Github:bioconductor要求作者使用Github进行版本控制,并开放issue。感兴趣的还可以通过github.io做一个自己的博客介绍自己的包。

    相关文章

      网友评论

          本文标题:R包开发的一些细节(1)

          本文链接:https://www.haomeiwen.com/subject/rgudrktx.html