美文网首页Hi-C3D Genome
文献阅读 | MrTADFinder: A network mo

文献阅读 | MrTADFinder: A network mo

作者: 阿狸的窝 | 来源:发表于2021-08-03 10:38 被阅读0次

    原文链接:
    Yan KK, Lou S, Gerstein M. MrTADFinder: A network modularity based approach to identify topologically associating domains in multiple resolutions. PLoS Comput Biol. 2017 Jul 24;13(7):e1005647. doi: 10.1371/journal.pcbi.1005647. PMID: 28742097; PMCID: PMC5546724.

    算法思想

    contact matrix → contact network

    本文作者提出可以从图论中网络分析的角度,将Hi-C数据视作有权网络(weighted network),采用 network community detection probolem 的思想寻找 contact map 中的TAD

    对于一个特定resolution下的contact matrix,每个node代表一个bin (loci),两个bin之间的itneraction用weighted edge表示,优化目标是使 modularity 最小化。
    Q = {1\over 2m}\sum_{vw}(A_{vw}-E[A_{vw}])\delta(c_v,c_w)

    但是在此基础上,TAD划分与经典的community detection 有2点不同

    Point1:如何计算 E[A_{vw}]

    在经典网络模型中,认为两个节点间形成边的概率仅与2个节点的度相关,即 E[A_{vw}]=\frac{k_vk_w}{2m}

    而作者提出对于Hi-C网络,两个位点间的期望的contacts和位点间的距离成正比。

    因此作者对原有的modulairty计算公式中的E[A_{vw}]进行改写。

    作者给出的模型中,对于一个给定的total contact为N的intra-chromosomal contact map W

    Q = {1\over 2N}\sum(W_{ij}-\gamma E_{ij})\delta(c_i,c_j) \\ E_{ij}=\kappa_i^*\kappa_j^*f(|i-j|)

    其中,

    • \gamma 是一个用户可调参数,决定了识别得到的TAD的大小

    • f(|i-j|) 是距离为d=|i-j|的locus pair间的contacts的平均数

    • \kappa_i^*\kappa_j^* 近似于k_i和k_j, 通过以下方程组可以解出:

      \forall i,\ \sum_{j}E_{ij}=\sum_{j}W_{ij}=k_i

    Point2: TAD必须是基因组上一段连续的区域

    使用经典的louvain算法计算得到的community由不连续的bin组成,因此作者对louvain算法进行了改造。

    Figure 1

    Customized Louvain algorithm

    step0. Initialization

    初始化:为每个bin分配1个独特的module label

    step1. local optimization

    每一轮,

    按照随机顺序对所有bin进行遍历,

    对于每个bin尝试将每个bin合并入其左邻或右邻所在的Module

    如果合并后Q值增大则改变该bin所属的label

    迭代执行上一步,直至所有节点的module label不再发生变化

    step2. global optimization

    将每个module视作一个单元,重复进行step1

    Point3: 算法稳定性

    考虑到Louvain算法具有不稳定性,作者对于一个给定的W进行多轮划分,并定义每个bin的boundary score 为:在多轮TAD划分中,bin i 被标定为domain boundary的比例。

    作者选择 0.9 作为 cut-off,即认为 boundary score > 0.9 的bin为consensus boundary。

    通过对参数\gamma 进行调节可以控制TAD的大小,\gamma 越大,检出的TAD size越小,数目越多

    Figure 2

    其他结果

    作者使用MrTADFinder探究TAD boundary位点具有的特征

    作者观察到

    1. TAD boundary处有H3K4me3等活跃性组蛋白修饰的富集,且\gamma 越小趋势越明显
    2. TAD boundary处有gene TSS的富集,且housekeeping gene的富集程度高于其他基因; 同样是\gamma 越小趋势越明显
    3. HOT(High TF-occupancy target)区域和XOT(Extreme TF-occupancy target)区域在TAD boudnary
    4. 部分TAD boundary 处的 mutation burden rate发生改变

    相关文章

      网友评论

        本文标题:文献阅读 | MrTADFinder: A network mo

        本文链接:https://www.haomeiwen.com/subject/xbgsvltx.html