在我们往期的文章中,有很多期关于数据挖掘的教程,包括数据库的,分析软件的,R语言的等等。这些都是进行数据挖掘非常重要的工具。很多同学在学习的过程中可能会产生这样的疑问:
1. 生物信息发文章难吗?
关于这个问题,从一个过来人的角度来讲,数据挖掘发文章相对于做实验来说真的是要简单上很多的,从成本上来说是非常划算的,不管是时间成本,还是经济成本。很多人没有实验条件,或者没有足够的时间,那么,通过生物信息发文章是首选的一条“捷径”(捷径不等于歪门邪道哟~)。
2. 生物信息能够发好文章吗?
现在存在这样的一个误区,随着生物信息这两年的飞速发展,越来越多的研究人员开始接触和认识生物信息。于是乎,有个别人自以为看了一些数据挖掘的文章,掌握了些许技能,对很多数据挖掘的文章开始评头论足。认为数据挖掘的文章就像前几年的Meta分析,必定是“昙花一现”。同时,生物信息无非是发表2-3分左右的低分文章,发高分文章是根本不可能的。每次遇到这样的问题,专业的生信分析师一般都微微一笑,不做回答。甩给他几篇文章,自己慢慢看吧。单纯的生信分析一样可以发表很好的文章。
前面,我们跟大家解读过一篇数据挖掘文章的套路,1小时完成1篇SCI文章《【课程】TCGA数据挖掘精品课程》,充分展示了数据挖掘的超高效能。今天我们换一篇文章,给大家看看,如果通过数据分析发表一篇IF 5分以上的文章。5分是一个门槛,是很多高校博士生毕业、导师聘任、职称评选的一条杠。
文献实例
这是2019年发表在Aging-us杂志的一篇纯生信的文章,影响因子是5.2分(历年影响因子如下)。
课题解析
研究内容:通过多种生物信息方法筛选前列腺癌中的关键基因
研究对象:GEO公共数据库中的前列腺癌数据集
研究方法:整体来说,这篇文章的研究思路还是非常明了的。在原文的Figure 1中详细罗列了本文的研究思路。
根据研究思路将具体的分析方法分为以下几个部分:
通过差异表达分析找到差异基因
GO/KEGG/GSEA/GSVA功能富集分析找到有意义的通路
WGCNA筛选和表型密切相关的模块和关键基因
外部数据验证,TCGA数据集验证关键基因
免疫浸润分析证实关键基因功能
关联多组学数据,分析甲基化与基因表达相关性
可能很多人刚开始看到这篇文章觉得,一篇5分的文章如果做起来,肯定非常复杂,工作量会很大。其实,等我们把文章里面的内容一一拆解开来,大家就会发现其实很简单。那么下面,我们就带领大家,用我们学过的知识,来给大家重现这篇文献中的重要结果,一方面是梳理前面学过的内容,一方面是培养写数据挖掘类文章的思路。
结果重现
1. 差异基因筛选
说到差异基因分析,R语言的“limma”包少不了,然后通过RRA(稳健排序整合)方法筛选出10个数据集共有的差异基因,其中上调基因808个,下调基因930个,将TOP20基因用热图展示,就是文章的Figure 2。
重现方法:参照科研猫往期推文《重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分享)》
2. 功能富集分析
原文作者对上述筛选出来的差异基因进行了后续的功能富集分析,并绘制了比较高大上的和弦图(或者叫Circos图)。
重现方法:功能富集分析可以通过DAVID去实现,绘制和弦图参照科研猫往期推文《【科研猫·绘图】团团“圆圆”,来个不一样的月饼》。
3. 共表达网络分析(WGCNA)
WGCNA是一种可以关联表型和基因的高级分析,通过WGCNA,可以快速锁定和前列腺癌相关的基因集合,同时从中选出重要的关键基因(Hub gene)。在这里,作者发现Pink这个module是很关键的,于是乎,在找到Pink这个模块后,再次对其进行功能富集分析,这次用的是气泡图。
重现方法:关于WGCNA的基础参见《【高阶】WGCNA共表达网络分析-让你的文章闪耀起来》,我们进行了详细的讲解,WGCNA的代码我们也已经公布,参见《【训练营】R语言 + GEO + TCGA + 多组学 + 免疫浸润 + WGCNA = 高分SCI》。关于功能富集分析气泡图的绘制,参见《终极篇:3分钟搞定GO/KEGG功能富集分析-气泡图》。
4. 生存分析
在Pink这个模块中,作者找到了LMNB1、TK1、RACGAP1、ZWINT等几个关键性的基因,为了证实自己找到的基因存在重要的临床意义,作者在TCGA数据库中对这4个基因的在不同组织中的表达绘制了箱线图,并进行了生存分析。
重现方法:想要分析TCGA数据,参见《【课程】TCGA数据挖掘精品课程》。欲做箱线图,可用我们的专用绘图代码《【科研猫·绘图】看·箱线图·如何美丽动人(代码分享)》。生存分析也简单,参照《【科研猫·出品】TCGA超大批量生存分析教程》。是不是要啥有啥呢
?
5. 甲基化分析
为了进一步阐明4个hub gene的致病机制,作者利用DiseaseMeth 2.0这个数据库分析基因表达与甲基化的关系,并制作成箱线图。
重现方法:这个更加简单,在线分析工具,直接登录网站http://bio-bigdata.hrbmu.edu.cn/diseasemeth/search.html,输入基因名和疾病即可检索。
6. 免疫浸润分析
所谓免疫浸润就是分析肿瘤组织中“掺杂”的免疫细胞的数量,原文中作者用在线分析工具TIMER进行了分析,绘制了不同类型免疫细胞的比例与基因表达的相关性散点图。
重现方法:使用CIBETSORT和TIMER都可以,作者用的是TIMER,但是个人感觉CIBERSORT(https://cibersort.stanford.edu/index.php)用着更舒服一些。
5. GSEA高级功能富集分析
为了进一步阐述上述4个基因导致表型变化的分子机制,作者对上述基因及其相关基因进行了高级的功能富集分析-GSEA。
重现方法:关于GSEA,我们有专门的视频教程,参见《【科研猫·绘图】GSEA分析全攻略,带视频分享》。
小结
通过这篇实际的例子,我们看到,通过数据分析发表一篇5分的SCI文章还是比较简单的,而且都是“套路”,只要学会这些套路,做起来是非常省时省力的。
当然了,也不排除很多同学在实际操作过程中出现各种各样的问题,而且很多同学就算是做出了结果有时候也不是很自信,这个时候就需要有专业的老师介入了。如果在专业的技术人员带领下学习,上面的事情做起来都会是事半功倍。为了满足大家的需求,我们将在广州举行2019年最后一次“封箱”大讲堂,课程上以实例为引,全程手把手教学,两天掌握5分文章套路。
-END-
更多科研新鲜资讯、文献精读和生物信息技能
请关注科研猫公众号
未经许可请勿随意转载,
版权事宜由上海辰明律师事务所提供法务支持
网友评论