通过深度学习预测单个细胞中的转录因子结合
期刊名: Science advances
影响因子: 13.116
发表日期: 2020.12.18
下载地址: https://advances.sciencemag.org/content/6/51/eaba9031
一、文章概览
描述转录因子(TF)的全基因组结合谱对于理解生物过程至关重要。尽管已经开发了评估细胞群内结合谱的技术,但在单细胞水平上确定它们的方法仍然遥遥无期。
本文提介绍了scFAN(single-cell factor analysis network单细胞因子分析网络),这是一种深度学习模型,可以预测单个细胞中全基因组的转录因子结合网络。
scFAN包括对大量的数据进行“预训练模型”训练,然后使用DNA序列数据,汇总的相似scATAC-seq数据和可定位性数据的组合,将其用于预测单细胞水平上的转录因子结合。
scFAN提供了一种有效的方法来预测单个细胞的不同转录因子的结合谱,可用于分析单细胞表观基因组学和预测细胞类型。
二、scFAN流程概览
scFAN pipeline- Step1: Data process
分别准备单细胞和Bulk的ATAC-seq、bigwig信号、序列信息,还有可映射性特征数据。
- Step2: Pretrained model
先对于Bulk数据,以ATAC-seq,序列信息,可映射数据作为特征,输入深度学习模型中,优化了预训练模型。
- Step3: Single-cell model
对于每个单细胞,都有各自对应的ATAC-seq,序列信息,可映射数据,每个细胞都有其对应的特征矩阵,将这些矩阵输入Step2中已经预训练过的模型中。
- Step4: Downstream analysis
对特征矩阵进行排序和二值化,计算每个细胞的前N个motif出现的概率,根据概率值绘制热图,分析在不同单细胞中的转录因子出现的概率从而将单细胞归类,进行单细胞数据的下游分析。
三、Bulk数据分析
Bulk数据组成- 用文中的训练模型对三个细胞系内的转录因子是否结合进行了预测,由于正样本远远大于负样本,所以用了两个标准来衡量预测的准确性。
- 从图中可以看出所有转录因子预测的AUC值均大于0.8,近一半的转录因子预测的AUPR大于0.8
- 基于GM12878细胞系的训练模型,将SPL1,CREB1,JUND,MAFK这几个转录因子进行了可视化分析,分别从Jaspar数据库中下载了这几个转录因子的motif,然后与本文提出的模型所找到的motif进行对比,发现其匹配程度均达到了一定值。
- 这三个细胞系中同时出现的转录因子有17个,随后用这17个转录因子的数据分别在这三个细胞系中进行了交叉训练,在这17个测试的转录因子中,大多数(约75%)转录因子显示出跨细胞系的稳定性,但是又有四五个转录因子的性能下降,显示出转录因子的细胞类型特异性。
四、单细胞数据分析
Single-cell数据组成- 为了评估单细胞转录因子的预测准确度,用到了两种间接方法 image
- 首先验证了在预测的转录因子区域中是否存在丰富的序列motif,以及这些motif是否与转录因子的一致结合motif相匹配。
- 从Corces数据集中选取几组,对比文中模型预测峰值的图案的富集度。
- 结果表明此模型在6个细胞中预测的5个活性转录因子均显著富集Homer中的motif。
五、讨论
- scFAN 不仅用于预测 TF 结合和 TF 基序,还用于确定细胞身份。能够将开放染色质区域与单个细胞中 TF 的结合活性相关联,可以更好地了解细胞动力学和调节。
- 这项研究表明,深度学习技术可以显着提高我们使用单细胞数据来辨别细胞命运的能力。
六、补充
引入 TF activity score 研究预测的转录因子结合谱是否可用于区分细胞类型。
TF activity score- 此图对比了不同的处理单细胞数据的模型对于大量单细胞的分类效果,我们发现本文所提出的模型的分类效果还不错
- 接着由于证明了转录因子的活性评分对区分细胞类型是有效的,所以探究了单个转录因子在定义细胞类型方面的贡献。
由图知:
- LMPP细胞的EGR1活性得分最高
- CEBPB在BJ细胞系中的得分最高
- SPL1在单核细胞中比EGR1更活跃。
网友评论