菩提本无树,明镜亦非台。
不知道大家是否也有同感,所谓的生物信息挖掘,所谓的数据挖掘,其实就是带着镣铐跳舞。
一方面我们要尊重临床上的基本原则,另外一方面还要尊重数据的基本特征和统计方法的基本要求。生信人其实就是在大基本原则下,尽量的尊重数据和方法,来舞蹈。
数据会更新,方法会迭代,临床认知也会变化,所以任何的结论和认知都是暂时的,都是不完美的。因此,做生信,一定要接受不完美。
首先,要接受数据的不完美。对于很对疾病项目来说,数据收集比较困难,或者随访信息总是那么不完备,亦或是样本来源存在一定的出入。但是没有办法,目前我们能用的就是这些数据,那我们的任务就是利用这些数据,在保证大方向不出问题的情况下,挖掘出比较好的结果,做那么一小步的探索,一点点的进步就很棒了,不必纠结非要如何如何之后,再如何如何。
然后,要接受生信方法的不完美。很多生信算法和工具都遵循一定的数据特征,统计学分布。贸然的利用不匹配的算法进行分析,结果也能出来,但是这个分析从某种意义上是不能接受的。所谓过程有问题,结果不可信。但从生信挖掘的目的上分析,其实就是借助统计学原理去实现降维,实现模型的简化,方便大家更好的认识疾病或者物种特征。说白了,生信方法是工具。举一个不恰当的例子,筷子是用来吃饭的,勺子是用来喝汤的,用勺子吃饭是不是也可以。我只要能完成我认识世界的目的就可以了。我经常举得一个例子就是我就是抓阄得到的模型,没有任何统计学方法,蒙的,其实也是可以的。只不过这种获取认知的方法并不能被同行评审所接受和认可。我们需要做的就是在不那么匹配的数据和工具以及共同认知的前提下,寻求一种平衡,达成分析目的。
最后,要接受生信结果的不完美。最近很多项目,预后模型很好,验证效果差一些,或者验证效果很好,关联免疫治疗效果就不好。其实对于科研来说,效果不好才是常态,效果很好,才不正常。一个新的点子出现,怎么可能都是阳性,肯定是存在很多次的去伪存真。所以在做项目的过程中,即使数据完美,方法完美,还存在一个认知的问题,所以结果大概率还是不好的。探索出一个不好的结果,其实也是小小的推动,比如证明铁死亡跟头颈鳞癌没啥关系等等,只不过都不那么愿意接受。
所以生信挖掘本身就不是一个一蹴而就的事情,我们能做的貌似跟医生差不多:偶尔阳性,常常调试,总是探索。
其实我以前一直很纠结,为啥很多技术,比如三代刚出来的时候那么多问题,大家还是愿意用,而不是等他三五年后技术成熟,通量提升,价格便宜之后再启动。
关于人类基因组计划的《共同的生命线》有两句话给出答案:
1、我们能做的只是在测序方面用现在的技术尽量的做的更好一点,而不是等技术提升,因为发现来不及等待。
2、对于测序或者分析工作,我们追求的是可靠而不是绝对正确。
生信人,做可靠生信。
网友评论