美文网首页
【生信训练营-2】初识Bioconductor

【生信训练营-2】初识Bioconductor

作者: Rapp | 来源:发表于2016-08-31 15:38 被阅读237次

    如果把生物信息学分析比作一场战斗,那么Bioconductor(简称BioC)无疑是我们的一支王牌主力部队。这支神秘之师究竟有怎样的战斗力?今天我们就来一探究竟。

    BioC官网:http://www.bioconductor.org

    bioc.jpg

    BioC不同于一般的生信软件,它基于开放的R语言平台,继承了R语言强大的统计和作图功能,在几个BioC核心软件包的基础上,我们可以开发出各种针对特定生物学数据的分析软件包。经过多年的发展,BioC不断积累大量的软件包,已经成为基于R语言平台开发生信软件的标准,也成为除了CRAN外最大的R软件包仓库。

    BioC目前(v3.3)已经有1213个软件包(Software),916个注释数据包(AnnotationData),293个实验数据包(ExperimentData)。不仅数量众多,软件包之间还存在错综复杂的依赖关系。面对这么多软件包,新手往往会迷失方向,不知道究竟该从何学起。擒贼先擒王,学BioC也要从最重要最基础的包开始学起。那么问题来了,到底哪些包才是BioC的基石呢?今天我们的任务就是来回答这个问题。

    我们还是用数据和图表来说明谁才是BioC中最重要的软件包。为了拿到一手的数据,我写了一个爬虫程序,从BioC官网上抓取了所有软件包的相关信息(不包含数据包)。然后通过简单的统计,试图帮大家寻找到一条学习BioC的捷径。

    首先我们来看看BioC都能做些什么?

    1. BioC是一个综合性的数据分析平台,可以支持的数据类型主要有7大类,其中最主要的是Microarray和Sequencing。早期的BioC主要是用来分析Microarray数据,随着高通量测序成为主流技术,BioC的侧重点也放在了NGS数据分析上。因此,我们学习的重点也应该是和NGS数据相关的软件包。


      BioC_technology.png
    2. 测序技术已经广泛应用在生物学研究的各个领域,每当一种新技术出现,就会有众多的BioC软件包应运而生。从下图中我们就可以看到,你能想到的任何一种测序数据都可以在BioC上找到相应的软件。这种多样性是其他任何一个生信软件都无法匹敌的。


      BioC_technology_sequencing.png

    接下来回到我们上文中提到的问题:哪些软件包是BioC的基石?初学者应该从哪些软件包学起?我将从以下3个方面来回答:

    1. 我们可以从一个软件包的下载量来评估它的重要性。如果一个软件包被下载和安装的次数非常多,说明该软件包在BioC体系中处于底层或者核心的地位,也有可能说明该软件的分析方法被广泛认可,已经成为生信分析的标准流程之一。无论是怎样一种情况,都是我们必须要首先掌握的。下面列出的就是下载量排名前15位的软件包:


      BioC_top15_downloaded.png

      排名第一的BiocInstaller本身就和BioC软件包的安装和更新有关,只要你用BioC,肯定离不开它。不过该软件包主要是系统调用,我们了解一下就行,不需要深入的学习。排在第二位的Biobase的确是BioC的基石,一定是我们首先要深入理解和掌握的。需要注意的是,上面列出的软件包中,很多都是其他软件包的基础(在加载其他软件包的同时被自动加载的)。万变不离其宗,当我们把这些基础的包理解透彻以后,再去看基于这些软件包开发出来的其他包的时候就会觉得非常轻松。

    2. R和BioC的模块化设计是它们得以成功的重要因素之一。一个软件包的开发往往需要基于多个其他的软件包来实现。因此,除了下载量以外,我们还可以通过一个软件包的“被依赖”程度来判断它的重要性。下面列出的就是被依赖程度排名前15位的软件包(其中有很多软件包也出现在下载量的前15位):


      BioC_top15_depended.png

      如果想真正学好BioC,甚至想从一名BioC user变成BioC developer,踏踏实实学好上面的包就是成功的捷径!

    3. 我们知道,一个生信分析流程往往会包含很多步骤,在每个步骤中会有很多不同的软件可供选择。那么针对于workflow中的某个步骤,究竟哪些软件包是最重要的呢?为了回答这个问题,我把workflow分成11个步骤,并分别统计出每个步骤中下载量排名前5位的软件包:


      BioC_workflow_download_top5.png

    从今天开始,【生信训练营】会和大家一起从最基础的BioC包开始学起,只有练好内功,构建好BioC知识体系,才能在未来的生信战斗中运筹帷幄,百战百胜!


    qrcode.jpg

    相关文章

      网友评论

          本文标题:【生信训练营-2】初识Bioconductor

          本文链接:https://www.haomeiwen.com/subject/kbsxettx.html