在求学阶段,经常听到老师或者没有做生信的同学说生信就是跑流程的,一些大佬也有发文自嘲和解释过生信不是跑流程。我自己在刚上手生信分析时,对这个说法强烈反对,参加工作或者说上手多了以后开始觉得生信既是跑流程又不是跑流程。于是就有了这篇log记录一下为什么我觉得生信是跑流程又不是跑流程。
0. 全文纵览
- 生信流程是怎么来的
- 生信是跑流程的部分
- 生信不是跑流程的部分
- 总结
1. 生信流程是怎么来的
流程指的是什么
首先得明确流程的这个名词概念,由于生物信息学是一门交叉学科融合了生物学、计算机科学和数学。生信中流程的概念是指把通过计算机语言编写的,用于自动化数据分析任务中重复使用的一系列步骤。
流程是怎么形成的
生信流程是为了解决重复劳动而存在。以原核分析为例,无论是什么来源的数据,基因组数据的分析都必须经过序列质控、序列组装、组装评估、初步注释(翻译成蛋白质)、比对基因组、使用各个数据库进行注释等等
的这些步骤,不同样品来源的数据,在这些步骤中唯一的区别就是数据本身
,处理步骤本身是不变的
,把这些步骤打包(抽象、提取公因式)起来用于就形成了流程(类似于咖啡机,只需要把原料放进去最后就可以得到一杯咖啡☕️)。
流程本身是谁做的
能把数据分析步骤抽象并剥离出一个可复现流程的的人,对生信分析过程(包括步骤和软件)有较深入的了解和使用经验,并且具备一定的编程能力
(2024年的今天可以借助AI来完成这个内容,前提还是开发的人对这些都必须有一定的了解才能够做成稳定使用的流程)。
网友评论