SCENIC是一种同时重建基因调控网络并从单细胞RNA-seq数据中鉴定stable cell states的工具。基于共表达和DNA模基序 (motif)分析推断基因调控网络 ,然后在每个细胞中分析网络活性以鉴定细胞状态。
细胞的转录状态从一个潜在的基因调控网络能量有限数量的转录因子和辅因子调节彼此和他们的下游靶基因在单细胞转录组分析最新进展提供了令人兴奋的机会对于高分辨率状态之间的分化期间例如统计技术和生物信息学方法优化fot单细胞RNAseq导致新的生物见解现在仍不清楚具体的和健壮的入库单年代基本稳定的细胞状态可以确定这可能确实是一个挑战,因为在单细胞水平基因表达可能是paritilly断开特遣部队的动态输入的随机cariation基因表达的转录破裂和其他来源已经开发出了一些方法,推断出coexpression网络从单一细胞RNA seq数据,但这些方法不使用监管序列分析预测tfs与靶基因之间的相互作用。
SCENIC需要输入的是单细胞RNA-seq表达矩阵—— 每列对应于样品(细胞),每行对应一个基因。基因ID应该是gene-symbol并存储为rownames (尤其是基因名字部分是为了与RcisTarget数据库兼容);表达数据是Gene的reads count。根据作者的测试,提供原始的或Normalized UMI count,无论是否log转换,或使用TPM值,结果相差不大。
SCENIC在R中实现基于三个R包:
GENIE3:
推断基因共表达网络
RcisTarget:
用于分析转录因子结合motif
AUCell:
用于鉴定scRNA-seq数据中具有活性基因集(基因网络)的细胞
除了必要的R包之外,需要下载RcisTarget的物种特定数据库(https://resources.aertslab.org/cistarget/;主题排名)。默认情况下,SCENIC使用在基因启动子(TSS上游500 bp)和TSS周围 20 kb (+/- 10kb)中对模序进行评分的数据库。
建立基因调控网络(Gene Regulation Network,GRN):
基于共表达识别每个转录因子TF的潜在靶标。
过滤表达矩阵并运行GENIE3或者GRNBoost,它们是利用表达矩阵推断基因调控网络的一种算法,能得到转录因子和潜在靶标的相关性网络;
将目标从GENIE3或者GRNBoost格式转为共表达模块。
根据DNA模序分析(motif)选择潜在的直接结合靶标(调节因子)(利用RcisTarget包:TF基序分析)
确定细胞状态及其调节因子:
- 分析每个细胞中的网络活性(AUCell)
在细胞中评分调节子(计算AUC)
共表达网络
SCENIC工作流程的第一步是根据表达数据推断潜在的转录因子靶标。为此,我们使用GENIE3或GRNBoost,输入文件是表达矩阵(过滤后的)和转录因子列表。GENIE3/GRBBoost的输出结果和相关矩阵将用于创建共表达模块(runSCENIC_1_coexNetwork2modules())。
基因过滤/选择
按每个基因的reads总数进行过滤。
该filter旨在去除最可能是噪音的基因。
默认情况下,它(minCountsPerGene)保留所有样品中至少带有6个UMI reads的基因(例如,如果在1%的细胞中以3的值表达,则基因将具有的总数)。
通过基因的细胞数来实现过滤(例如 UMI > 0 ,或log 2(TPM)> 1 )。
默认情况下(minSamples),保留下来的基因能在至少1%的细胞中检测得到。
最后,只保留RcisTarget数据库中可用的基因。
- 细胞状态
AUCell提供跨细胞的调节子的活性,AUCell使用“Area under Curve 曲线下面积”(AUC)来计算输入基因集的关键子集是否在每个细胞的表达基因中富集。通过该调节子活性(连续或二进制AUC矩阵)来聚类细胞,我们可以看出是否存在倾向于具有相同调节子活性的细胞群,并揭示在多个细胞中反复发生的网络状态。这些状态等同于网络的吸引子状态。将这些聚类与不同的可视化方法相结合,我们可以探索细胞状态与特定调节子的关联。
网友评论