随着测序技术及质谱技术的不断发展,各种生物信息学分析工具和技术也随之而生,但种类繁多、安装麻烦、非图形界面的分析工具给许多非生信背景的研究人员带来了很多不便,于是生物信息学分析平台便孕育而生。这种门槛较低的可视化分析平台为非生信专业背景的研究人员提供了极大的方便。
生物信息学分析平台是将各种生物信息学分析工具集合起来,研究人员可以通过网页或其他交互方式进行核酸和蛋白序列分析的平台。包括测序数据处理、序列比对、序列注释、功能分析等。研究人员只需设置好程序参数,所有的分析过程全部在服务器端运行。
目前国内外多个公司都建立了自己的生信分析平台,有全免费的也有部分免费的。目前开放的比较有名的有:Galaxy,GenePattern,GenomeQuest,UCSC,DNAnexus等。
以Galaxy(https://usegalaxy.org/) 为例,通过该在线生信分析平台,研究人员能够在不下载和安装任何软件工具的前提下做各种生物信息学分析,并记录每一步分析过程。Galaxy分析页面如下图所示,左栏是各种生物信息分析工具,右边是历史记录及文件列表。
Galaxy主界面这几天Galaxy在升级,7月18号之后就可以正常使用了。Galaxy可以本地化,但过程比较繁琐。
目前Galaxy平台主要用于测序数据的生物信息分析,包括数据上传、数据文本处理、数据格式转换、数据过滤、质量处理、统计分析、序列比对、变异和进化分析、SNP等。
如在RNA-seq中使用hisat2 进行reads map。
-
使用邮箱注册并上传原始数据后,在左侧工具栏里直接搜索 "hisat2":
搜索hisat2 -
单击使用"hisat2"后会在页面中间显示hisat2的参数设置界面。
hisat2参数选择界面
并且在页面下面包含对软件的介绍及部分结果展示和说明:
hisat2介绍及部分结果说明 - 根据自己的样本文件设置好参数,之后点击底部的"Execute"按钮即可执行程序,程序运行状态会在右边栏里显示,这比在终端下执行程序要更加直观,唯一不足的就是执行前需要上传要运行的文件,通常一个Fastq文件好几个G,这需要不少时间。
- 还可以查询别人分享的分析流程,在顶部的菜单栏里点击"Shared Data"下的"Workflows":
Published workflows
比如搜索"RNA-seq"会显示别人分享的分析流程,可以查看,导入或者保存。
Published RNA-seq Workflows
Galaxy的功能也基本满足了日常所需的的文本处理要求,如对大型文本文件行列提取
、合并
、条件过滤
、删剪
、排序
和转格式
都可以在线可视化完成。也包含对特定格式如bed
、SAM
、BAM
、VCF
和BigWig
等格式文件的处理。打开Galaxy,你不需要安装任何程序,只需上传文件、设置参数、点击执行即可完成对数据的分析过程。集成多种程序的一体化流程化的生物信息学分析平台终将是生信分析的未来趋势。
更多原创精彩视频敬请关注生信杂谈:
网友评论
因为一般fastQ都在4-10G左右呢