写在前面
机缘巧合,近段时间参与了基因组组装与分析相关工作。大体了解了这一过程之后,才慢慢明白。这些分析,消耗脑力,也消耗体力,与此同时还有期望与耐心。
无论如何,项目总归是一个项目,完成一个项目,可能并不是为了完成项目,而主要还是了解这类项目的处理逻辑。更重要的,应是一些分析经验和思维。
经验影响了数据敏感度
慢慢地,我倾向于向生信数据分析的下游发展(关于生信分析的上下游,见之前的推文)。下游分析,极大地依赖于分析人员对生物学问题的认知。或许,这些才是生物信息学区别于IT或者其他信息学的地方。
在过去的一年多,可以非常明显地发现几种状态:
- 只有数据,没有信息(也就是完全不懂分析)
- 只有结果,没有故事(也就是,能跑跑软件,看得懂结果却猜不到生物学问题)
- 只有猜测,没有实证(看着一个结果,猜了各种各样的故事,却没有一个亮点)
当然还有更多状态,但对于我个人,目前来说,主要处于2和3。
我们会做出不少结果,却不一定能从结果中看出分析是否有问题,或者挖掘出生物学问题。前两天在博士课题组的支持下,到福建农观看大佬们的讨论,立马感受到,项目经验之重要,敏锐的感觉来自于实践与思考。
累计经验方式,可能是处理尽可能多的数据,完成尽可能多的项目。
失之毫厘,谬以千里
在验证一个猜测的时候,我与小庭子做了一些分析。遇到这么一个软件,其文档要求上一步骤的操作,必须限制阈值。而我忘记了。
从某个角度来说,相信用户上一步操作一定正确,那么就会引发更多的使用问题。使用了没有阈值限制的输入,我们得到了一个惊人的(预期结果之一)结果。
在小庭子的提示下,做了另外一个补充分析(此时我又加上了阈值),结果符合预期。
设想,如果不做这个补充分析,那么或许,我们就会选择一开始的结果。最终做更多的(白费力气)的分析。
所以,总的来说,
- 软件的参数很重要
- 软件的输入,还是要尽可能地按照软件的说明来
写在后面
忘了
网友评论