美文网首页TCGA数据分析生度好文
多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

作者: PriscillaBai | 来源:发表于2019-02-15 17:02 被阅读5次

The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant tumour subtypes

多癌中假基因表达展示了与肿瘤亚型相关的生物学和临床特性

作者从TCGA中采集了2808个病人,7种癌症的假基因表达谱(自己研发的pipeline),通过监督学习证明了假基因区分亚型的能力,并用分子实验验证。在肾癌中,假基因与病人的生存密切相关.

1. 知识积累:

(1)假基因 蛋白质编码基因发生了有害的突变,不能编码蛋白质了,就变成了假基因。

a 假基因具有转录活性,并不是没有用的,可以做转录因子

(2) 匹配得分 (alignability score )???

(3) BAM file BAM文件是SAM文件的二进制版本,用来储存相似序列达到128Mb的文件。

(4)卡方检验 两个变量间有没有关系 如男性和女性在购买线上生鲜食品时有没有区别

(5)multivariate Cox proportional hazards model 多变量cox比例风险模型 评估几个因素对生存的影响,预测变量称为斜变量。

2. 流程:

(1)创建新的假基因筛选流程

  • 将耶鲁的假基因数据注释和gencode的假基因注释结合

  • 筛选出与任何已知蛋白质编码基因相交的假基因外显子

  • 查找这些外显子是不是重复的

  • 将外显子的可对齐性得分(alignability score)< 0.95的留下来

  • 筛选出reads数匹配到TCGA基因组数据库BAM文件的假基因

(2) 监督学习:假基因亚型间的表达

  • 将数据集分成训练集和验证集

  • 在训练集中运用五折交叉验证,通过三种机器学习方法RF,SVM和LR进行预测

  • 在训练集中画出三种机器学习的AUC曲线

  • 将效果最好的机器学习方法,通过整个训练集对验证集进行重新验证

(3)假基因区分肿瘤亚型的效果评估

为了研究假基因的预后效果,将肾癌的病人分成两个亚型。

a 卡方检验:假基因亚型和TCGA的分子亚型

b 乳腺癌中,效果的评估

(4)肾癌中假基因的预测效果

  • 用NMF无监督学习区分肾癌的亚型

  • 生存分析

  • multivariate Cox proportional hazards model

3. 结果与结论

(1)假基因在各个亚型中的分布情况

a : 总共是所有的假基因,黑色是在不同亚型间差异表达的假基因

b: 选取乳腺癌中ATP8A2P1的表达箱线图

(2)机器学习

SVM效果最好

(3)效果评估

(4)肾癌中的预后效果

相关文章

网友评论

    本文标题:多癌中假基因表达展示了与肿瘤亚型与生物学和临床特性的相关性

    本文链接:https://www.haomeiwen.com/subject/xgjmeqtx.html