前言
Immugent今天来介绍一篇依靠纯数据挖掘就能完成一篇高质量文章(Elife)的思路设计,而且最大的亮点在于整个工作从原始数据公开,到数据挖掘,再到完成写作并投稿作者只花了一年左右的时间。要知道如果通过做机制实验发Elife,2-3年的周期是很正常的。原始数据是2020年发表在Nature上的一个单细胞数据,数据挖掘的文章是2021年发表在Elife的文章,篇名如下:
image.png image.png小编在看完这篇Elife的文章后,第一感觉就是这个好像并不难,再细看一下还真不难,最后感叹自己咋没早点想到。。。
主要内容
整个数据挖掘的文章结构就4张主图,再简单不过了,而且使用的最多的就是最常见的差异分析。但是我们知道Elife这个杂志的文章质量还是很好的,平时都是接受一些以实验为主的探索生物学机制类的文章;但是之所以这篇纯数据挖掘的文章能发表在Elife杂志上,正是因为作者及时利用了这个数据资源,还在原研究基础上进行更细致的分析。
image.png第一幅图就是分析设计图,作者还是比较懒的,直接用的原文的注释结果进行的后续分析。
image.png然后就是找出年龄相关的差异基因(GAGs),做一下常规的相关性分析和GO富集分析。
image.png第三幅图是小编觉得稍微有一点技术含量的图了,就是作者自己构建了一个GAG score用来评估每一种器官/细胞的衰老评分。
image.png最后一幅图作者系统分类了特定组织细胞类型的衰老相关基因,包括功能类别特异性基因、细胞类型特异性基因、组织特异性基因和组织细胞类型特异性基因。
说在最后
说到数据挖掘,很多小伙伴会想到这是水文章的一种常用方式,这只是因为目前很多低情趣的科研工作者把这项伟大的手艺给用错地方了。事实上,通过挖掘已经发表的数据不仅可以节省很多资源和时间,还可以更加迅速的验证或者发现我们要解决的科学问题。因为如果通过自己去测序,那么构建模型加上样本处理收集和测序,这个时间成本就很大了。
像这篇文章的作者第一时间敏锐的嗅到了老年鼠的单细胞数据资源,只需要在原文的基础上从一个更深入的角度着手就能挖掘出新的有价值的科研成果,这也是对这个数据的一个更充分的利用。当然,这话虽然说出来很简单,但是背后肯定需要大家去认真阅读大量文献,并且有扎实的生物学知识才可以完成。
好啦,本次分享到这就结束啦,如果有较好的数据挖掘思路可以通过后台联系我们,下期再会!
网友评论