生物信息学需要广泛的技能,大致包括:
1.数据管理
accessing获取, combining合并, converting转换, manipulating操作, storing储存, annotating注释数据
routine data quality checks原始数据的质量检查, summarizing large amounts of information大量信息的总结归纳, automating existing methods已有方法的自动化
2.原始数据分析
数据分析需要running alignments, variation callers, RNA-Seq quantification, finding lists of genes。
分析中还须预见到哪里会有坑,知道如何填坑,对分析方案进行customize
3.数据解释
没有准确而富有洞察力的解释,数据的管理和分析将毫无意义。
生物信息学家需要通过解释结果,为生物学假设提供支持。
电脑配置
MacOS电脑:用于develop and test the methods
高性能的Linux工作站或计算机集群:用于对数据执行pipeline
↑以上我都没有↑
Windows10也不是不可以,通过安装Linux Bash shell,参见本书62页。
电脑的算力要求
32GB内存,8核的Mac机,只使用hisat2比对软件,可以1天做完RNA测序数据分析
基因组组装(genome assembly)则需要更多内存
分析低质量数据(污染,错误的样品准备)花费的时间远多于高质量数据
所以我要为了学习生信去买高性能电脑吗?
不需要,支持Unix的一般笔记本电脑就能做到很多事,足够让你了解这个领域,并成为这个领域的专家。
Cloud 云计算
可以使用Amazon Web Services这样的云计算平台上用tools跑data
运行云服务涉及了解对象存储object stores,虚拟私有云virtual private clouds,文件系统file systems和安全性security。 建立和维护实例云cloud instance需要您成为兼职系统管理员system administrator,这可能会分散您学习生物信息学的注意力。 在后面的章节中,我们将介绍云计算cloud computing和基于云的堆栈cloud-based stacks——通常称为软件即服务(SaaS),平台即服务(PaaS)和基础架构即服务 (IaaS)。 这些产品与容器化的应用程序containerized application和分析相结合,已因其为可重复的研究提供可扩展平台的潜力而受到重视。
如果这些概念不那么倒胃口的话,基于云的服务可以成为你学习生信的帮手,但学习生信并不一定需要云。
学习生息需要懂Unix吗
生物信息学的发展离不开Unix平台上编写的免费工具,多数新进展都用到针对Unix操作系统编写的软件,作为生物信息学者不了解命令行是不行的。
2016年开始,Windows平台已开始提供“Windows Bash”应用,该应用允许Windows 10操作系统运行几乎所有基于Unix的软件。
使用Unix并不那么复杂。Unix讲究准确和逻辑性,甚至有些死板教条。 根据经验,没有计算背景的人也可以在几周内熟练使用Unix。
我是不是应该学一门编程语言
是的!最好能有入门级的编程能力。
所有编程语言表面看起来不同,底层逻辑却是类似的。入门级的编程知识有助于你了解计算机分析的思维过程。
Unix的替代
有两大类
第一类为命令行工具提供一个Web interface,这些命令行工具也可以直接在Unix系统上运行(使分析更为直观)
第二类是“Systems that offer custom implementations of bioinformatics methods.” 运行于本地系统的独立软件
Bioconductor是什么?
基于R的开源软件项目,通过在R中调用函数进行数据分析
Galaxy是什么
简而言之给命令行工具command line tools加上基于网络的user interface,帮助没有编程经验的生命科学家入门用的。
注意:Galaxy不是分析工具,它只是用来方便地加载命令行工具和管理数据的用户界面user interface和平台platform,但理解命令行工具背后的概念及正确地使用这些工具都是用户的事。
忌讳:不要说“我用Galaxy做分析”,这句话听起来和“我拿电脑做生信”没什么区别,首先需要引用的是命令行工具本身,作者和相关文献,然后才要提到Galaxy。
没有生信专家会主动要求用Galaxy做分析,随着你学习的深入,你会发现Galaxy带来的“便利”不过是幻觉。当然初学阶段Galaxy用的顺手你可以接着用,但某天当你感觉到Galaxy的掣肘,你的想象力开始被一股无形的力量束缚,说明你毕业了,你要从Galaxy转战真正的command line tools了。
到那时候,你就开始不讲人话了:
bwa mem file1.fq file2.fq | samtools view -F 68 | samtools sort > result.bam
BaseSpace是什么
基于云的基因组学分析和数据储存平台,illumina公司的,和illumina测序仪整合了。所以只支持illunmia测序仪产生的数据。
商业化的生信软件贵吗
对个人而言肯定是贵的,但对科研组织而言,这笔钱很快就回笼了
生物信息学家适合作为自由职业吗
不适合
生物信息学家长什么样
长得很好看
网友评论