美文网首页
可计算单细胞测序各cluster在TCGA样本中的含量的R包--

可计算单细胞测序各cluster在TCGA样本中的含量的R包--

作者: 误入BioInfor的大黄鸭 | 来源:发表于2022-11-06 01:59 被阅读0次

2022.11.5初版
看了下日期...整整停更了一年(最近发生了很多事)?!来了来了,虽然大三狗进化成了大四狗,但终究还是只科研狗,更新教程的热情永不退却!!!


image
image

看了标题大家看懂了啥?


image
相信生信功底很深的友友一看标题就迫不及待想得到代码了,而一些生信萌新们(比如在学习这个包之前的我)还在一脸懵逼。我们都知道,GEO里的单细胞测序(scRNA-seq)很少有提供临床信息和生存数据的,即使提供了,由于单细胞测序成本高,每个作者进行的单细胞测序,也只测序几个患者。在这样的情况下,我们很难研究细胞亚群实际的临床意义,很难研究细胞亚群对患者生存、肿瘤分型分期等方面的影响。但是,单细胞测序他真的很香啊,传统转录组测序是混杂的烂组织,里面掺杂着各种各样的非癌组织细胞(免疫细胞、正常细胞、上皮细胞和内皮细胞之类的),而非癌组织细胞的浸润程度对每个样品的转录组测序结果影响很大,因此异质性很高。而单细胞转录组测序,可以流式之后一个个细胞去测,之后用生信进行聚类,可以很清晰看到每个类群的细胞的测序数据。
image
我们都知道,转录组测序(TCGA、GEO、ICGC、GTEx)等数据库的生信分析已经被国人玩烂了,技术层面大家都走得很熟,临床生存预后等研究功底很深。而在这样的条件下,如何结合已经研究成熟的传统转录组测序(bulk RNA-seq)和新颖的单细胞转录组测序(scRNA-seq),是一个很好的文章思路。
image

bulk RNA-seq结合scRNA-seq研究的方法有很多很多,有用marker基因分型的,有用marker基因建模的,很多花样(当然想知道怎么结合的也可以问我,我这两种方法也会嘻嘻嘻),但是我保证我今天讲的这个,是最新的花样!(你魅有玩过的船新版本)


image
image

真的不骗你,PubMed上对这个包的就两篇论文,一篇是包的作者发的NC,另一篇是发的25分的文章(讲真要是也有学员能用这个发25分+(10分+也行了)文章记得挂我个二作行吧求求了)


image

全网只有这唯一一份教程(我查过了这个包的NC文章今年4月末发的,到现在还没有一篇靠谱的教程),希望大家收藏点赞关注三连!!!


接下来我来为大家讲解一下应用场景


image

我们输入的数据有:

一个TCGA的表达矩阵(每一列是一个患者样本,每一行是一个基因的那个矩阵(做过生信的都很熟悉吧))

一个单细胞测序的表达矩阵(每一列是一个细胞,每一行是一个基因的那个矩阵(做过单细胞的不一定熟悉,因为单细胞在输入这块有很多种格式,但是都大同小异,而且Seurat都能输出这种矩阵))


大概是这样的

单细胞表达矩阵中每个细胞对应的信息,比如说:第一个细胞是T细胞,第二个细胞是B细胞,第三个细胞是肿瘤细胞,之类的,做过单细胞都知道,有个叫singleR的东西,用来注释每个细胞是什么细胞的,就是用那个输出的)


大概是这样的

单细胞cluster信息,做过单细胞的都知道,Seurat操作过一遍之后,会得到很多个细胞聚类,cluster0123456789...,操作这个教程时我们需提供每个细胞它在哪一个聚类的信息


大概是这样的

为什么我这里总是说“做过单细胞的都知道”,因为我这篇教程需要有一定的单细胞基础,需要进一步了解教程的友友们建议先过一遍单细胞分析的基础。

所需的材料大概就这么多了


讲了这么多,有些友友还不知道有啥用,对吧


image

简单来说,比如说,我们单细胞分析,得出了32个细胞亚群,我们想计算,每个类型的细胞,它在TCGA样本里的含量,就可以使用这个包

比如说:
我们单细胞分析共聚类出了:
肿瘤细胞-1
肿瘤细胞-2
肿瘤细胞-3
肿瘤细胞-4
肿瘤细胞-5
T细胞-1
T细胞-2
T细胞-3
B细胞-1
B细胞-2
B细胞-3
B细胞-4
B细胞-5
巨噬细胞-1
巨噬细胞-2
巨噬细胞-3
内皮细胞-1
上皮细胞-1
共18种细胞
(题外话,比如说结直肠癌,来源于上皮的,我们聚类到了通常会有很多种上皮细胞,很多个cluster,那我们怎么区分哪些cluster是正常的上皮细胞,哪些是癌细胞呢?我们可以计算每个细胞的cnv,拷贝数变异,来判断哪些cluster是正常的上皮细胞,哪些是癌细胞)

回归正题,我们聚类到18种细胞之后,我们可以使用BayesPrism包,来计算出TCGA样本中这18种细胞的含量


像这样的

每个样本,都能计算出每种细胞的含量。

有了这个含量值,我们能用来干啥呢?

想想,这和基因表达矩阵有什么区别??基因表达矩阵是每个样本每个基因的表达量,而在这却变成了每种细胞的含量。

我们可以稍微延伸一下思维,我们可以用这些数据来探究与患者生存预后的关系、肿瘤分期、或者是药物敏感性?或者是放疗效果?免疫治疗效果?反正我们得出了每个样本的这些细胞的浸润值,我们就几乎能做所有以前传统转录组测序能做到的事!!

image

我们可以做KM曲线或者单因素cox,来找到对患者生存预后有影响的细胞群(比如说某种T细胞(T细胞-2)在组织里的浸润情况,能影响患者预后)

我们也可以做相关性检验,探究浸润的情况对分期(stage、grade),大小(T),转移(M、N)之类的影响

我们还可以探究浸润程度对某种药物的敏感性的影响(这个很好玩,加个实验记得带我发几十分文章)

我们还可以探究免疫治疗,免疫检查点,m6A等各种花里胡哨的热门玩法

讲个实例吧,今年五月份的时候(没错就是这个包出了不到一个月我就摸索出了用法了),我参加的全国大学生基础医学创新研究暨实验设计论坛中的项目,就是发现了某种巨噬细胞,它在某个肿瘤组织里含量越多,能够影响免疫检查点阻断疗法的治疗效果,这个很不错。


大概讲这么多,因为这个涉及到一定的技术水平,所以相关技术层面的东西我花了很长时间很多精力整出来的,同时也是为了不让这个套路烂大街,希望大家能够理解,需要的请关注联系!
祝大家科研顺利!!


本教程就先讲到这啦,欢迎大家关注支持~

相关文章

网友评论

      本文标题:可计算单细胞测序各cluster在TCGA样本中的含量的R包--

      本文链接:https://www.haomeiwen.com/subject/cdemtdtx.html