前面给大家讲解过新版的TCGA数据库中,RNAseq的表达矩阵中加入了一列gene type。
☞TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了
我们在合并表达矩阵的时候,可以把这一列加入到矩阵里面
☞合并新版TCGA表达矩阵R代码叕更新了—RNA类型也给你提出来
然后根据type这一列就可以来判断对应的基因是什么类型了,下图列出了所有的RNA类型
如果想要mRNA的表达矩阵,就挑protein_coding对应的行就可以了,同理如果对lncRNA感兴趣,挑选lncRNA对应的行就可以了。这个其实通过Excel的筛选功能就能够实现了。既然我们是用R代码来合成得到的矩阵,那么就顺手用R来挑选感兴趣的表达矩阵。
#读取完整的表达矩阵
RNAcounts=read.table(file="combined_RNAseq_counts.txt",header=T,sep="\t",check.names = F)
#挑选protein_coding,也就是mRNA
PCcounts=RNAcounts[RNAcounts$type=="protein_coding",]
dim(PCcounts)
#[1] 19944 46
#保存mRNA的表达矩阵
write.table(file="PCcounts.txt",PCcounts,quote=F,sep="\t")
#挑选lncRNA
LNCcounts=RNAcounts[RNAcounts$type=="lncRNA",]
dim(LNCcounts)
#[1] 16889 46
#保存lncRNA的表达矩阵
write.table(file="LNCcounts.txt",LNCcounts,quote=F,sep="\t")
对于其他的几种表达矩阵的格式,TPM,FPKM, FPKM-UQ的处理方式是一样的,这里就不在赘述了。
网友评论