数据挖掘的非编码RNA的“五分以上”文章,标题:Identification of a RNA-Seq based prognostic signature with five lncRNAs for lung squamous cell carcinoma。
为了方便理解,小博简单的为本文梳理了一个流程图:
看了这个流程图,是不是瞬间感觉自己也能做呢?那么下面咱们一起来解读一下这篇文章的思路吧。
1、首先文章共分离出了7589个lncRNA,事实上TCGA上lncRNA的数量远不止于此。
2、使用R包DEseq来筛选具有差异表达的lncRNA,共得到4225个差异的lncRNA。事实上lncRNA丰度都比较低,使用该包未必是最优的选择。
来张美美的火山图,展示一下:
3、对每一个差异的lncRNA做单因素生存分析,共筛选出41个有预后差异的lncRNA。这41个lncRNA在论文中不好展示,直接用表格作为补充材料提交。
4、对这41个lncRNA进行多因素生存回归分析,最终构建出5个lncRNA的生存模型。
5、得到这五个lncRNA后,首先要展示这五个lncRNA的染色体位置,预后的显著性等各方面信息,以便大家了解这五个lncRNA的基本情况。
6、接下来就要看看不同风险分数(PI)下,这五个lncRNA的表达和预后情况,为之后的样本分类做好准备。
这个图显示了五个lncRNA构建的预后模型中不同样本的风险得分以及表达水平上的对应关系。从图中可以看出随着风险得分的增高,样本的死亡时间有所加快(图B);且前两个lncRNA的表达有下降趋势,后三个的表达呈现上升趋势。
这就说明三个问题:
①风险得分越高,预后越差
②前两个lncRNA表达越低,预后越差
③后三个lncRNA表达越高,预后越差
那么这个图是怎么做出来的呢?其实很简单,三个图横轴都是样本,按照风险得分进行排序,第一个就是散点图,第二个也是(将死亡的标记成红色),第三个是热图,三个图组合一下就完事,实在不行一个一个画,画完之后用AI拼一下就行了。
7、通过对比这五个lncRNA的预后模型与现有的病理学分类的区别,最终发现这个模型比现有的要好一些(这就是这篇文章的全部意义。。。)。
8、既然模型公式有了,那么选择一个好用的阈值来进行分类就显得至关重要了。这里使用ROC来评判模型的好坏,以及选择一个最优的阈值(A图中对应y轴-x轴最大那个点)。
9、找到最优的阈值之后,对样本进行分类,然后对比一下五个lncRNA的表达情况。图一定要好看。
10、使用WGCNA构建共表达网络来看这五个基因的功能。小博猜这一步应该是为了说明,如何找到这五个lncRNA中最关键的lncRNA-RP11-54H7.4。其实小博觉得如果跟基因表达一起构建的话,可能更有利于说明这个lncRNA的功能。
11、通过其他数据集进行验证。作者不仅利用好多套GEO的来验证预后,还结合该课题组之前的lncRNA数据来验证差异表达。
这样分析下来,是不是觉得5分也不是很难呢,赶快行动起来吧!
许多关注nambou1 W信公众号的朋友都解决了自己在论文发表方面的困惑,顺利的发表了论文,你不去关注一下?
公众号回复:scihub 获取最新版SciHub下载工具 免费下载科学文献
欢迎关注官方公众号,还有更多实用工具等你来拿
免费求助热线: 400-080-3779
• END •
网友评论