上一次我们聊了去卷积的话题,去卷积就是把一个完整的东西解构为n个特征,如一个小狗=鼻子*1+眼睛*2+有毛等。在转录组数据中,好像最早的去卷积就是CIBERSORT或者ssGSEA,这是一类利用经典细胞marker来推算整个肿瘤组织中各个细胞的比例。
上一次我们提到了利用2000个高变基因做marker,今天来讲一下怎么做,只讲核心步骤。
首先要提取2000个高变基因,这个很简单:
highgenes<- rownames(scRNA.counts@assays[["RNA"]]@scale.data)
然后是制作高变基因的系数表格:
AverageExpression(scRNA.counts,assays='RNA',features=highgenes)[[1]]
也没什么稀奇的,就是把某个基因在某种细胞类型中的平均表达量提取出来了。在CIBERSORT中,marker基因的系数表格就制作出来了,写成txt文件就行了。
现在,很多课题组或大佬也开发了自己的去卷积算法,很多都是换汤不换药,算法原理都是机器学习、NMF、超几何分布、贝叶斯等,如MuSIC2、BayesPrism等,其实有自己的想法完全可以自己写一个去卷积包。
去卷积能做什么?1.计算细胞类型和临床性状之间的关系,如有了每个样本每种细胞类型的比例,就可以和临床的预后信息产生关联;2.同样,也可以把临床信息映射给单细胞,如临床的预后信息映射给单细胞数据每个细胞,如Scissors算法。
有机会我们再说一下MuSIC2、BayesPrism,这在生信技能树都是由教程的,我也是学他们过河,但是恐怕用到自己数据上有需要调整的地方,改天详细说一下,谢谢大家。有问题可以在后台问。
网友评论