美文网首页三维基因组学3D Genome
文献阅读 | TopDom: an efficient and

文献阅读 | TopDom: an efficient and

作者: 阿狸的窝 | 来源:发表于2021-07-27 19:41 被阅读0次

    原文
    Shin H, Shi Y, Dai C, Tjong H, Gong K, Alber F, Zhou XJ. TopDom: an efficient and deterministic method for identifying topological domains in genomes. Nucleic Acids Res. 2016 Apr 20;44(7):e70. doi: 10.1093/nar/gkv1505. Epub 2015 Dec 23. PMID: 26704975; PMCID: PMC4838359.

    软件地址
    http://zhoulab.usc.edu/TopDom/.


    概要

    文章的作者团队开发了一种从Hi-C contact matrices中鉴定TAD的算法TopDom。与之前的算法相比,TopDom不需要复杂的参数调节(parameter tunning),用户仅需要提供window size一个参数。并且与DI相比,TopDom鉴定的TAD大小更小,数目更多。
    作者将TopDom应用于2人2鼠4种不同细胞系,再次证明了TAD在不同细胞类型间保守,并且作者观察到管家基因更倾向于分布在这些在细胞类型间保守的TAD边界附近。


    背景

    Toplogical domain 特点

    1. 同一个TD内的染色质性质相似(组蛋白修饰、活性基因密度、复制时间等)
    2. 在不同物种、同一物种的不同细胞类型间保守

    已有的domain识别算法

    发表年份 作者 算法原理 参考文献
    2012 Sexton et al. distance-scaling factor [1]
    2012 Dixon et al. DI + HMM [2]
    2012 Hou et al. Bayesian probability model [3]
    2014 Filippova et al. Armatus [4]
    2014 Levi-Leduc et al. HicSeg [5]
    2014 Rao et al. Arrowhead [6]

    已有算法主要存在的问题

    1. 计算耗时
    2. 需要调节的参数过多,且参数的选择对结果影响大
    3. 不同方法间计算得到的TAD一致性差

    TopDom 算法原理

    概述

    TopDom分为3个步骤

    1. 计算binSignal Value
    2. binSignal的局部最小值作为TAD boundary
    3. 统计学检验过滤false detection

    计算binSignal Value

    给定一个window size w(用户指定参数)
    对于每一个bini计算位于其上游的w个bin和位于其下游的w个bin之间两两的互作频率的平均值
    binSignal(i) = {1\over w^2} \sum_{l=1}^w\sum_{m=1}^w C_{U_i(l), D_i(m)}
    计算线性基因组上每条染色体上的所有bin的binSignal值,可以得到binSignal曲线

    截屏2021-07-27 下午3.30.14.png

    寻找局部最小值(local minima)

    因为TAD内的互作频率应当远高于TAD间互作,所以作者预计TAD中心所在bin的binSignal应当更高,而TD boundary所在bin的binSigna较低。根据这一假设,作者提出,binSignal曲线的局部最低点应当是TD的boundary所在

    但是一个重要的问题是,某些局部最低点可能体现的是数据的噪音。作者希望对binSignal曲线进行平滑,并使用一系列的折线段对来替代原曲线。

    在此,作者采用了Kumar Ray et al.的Piecewise linear curve fitting算法[7-8]。

    伪代码:

    F = F_last = 0
    bin_start = start
    j = bin_start + 2
    while j <= end
        L = Length(bin_start, bin_j)
        E = FittingError() 
        # Fitting error: the sum of distances from the points to the fitted line segments. 
        F = L - E
        if F < F_last:
           # Use bin (j-1) as the end of the last segment and also the start of the next segment
            SaveTurningPoint(j-1)
            bin_start = j - 1
            j = bin_start  + 2 
            F_last = 0
        else:
            # Try if a longer segment will be better
            F_last = F
            j = j + 1
    

    由此方法找出的转折点中的local minima被视作 TD boundary-like bins

    false positive 过滤

    对于一个bin i
    定义位于i上游的 w 个bin与位于i下游的w个bin之间的互作为 between interaction
    定义位于i上游的w个bin内部的interaction和位于i下游的w个bin之间的互作为 within interactions

    对于染色体上的每一个bin,使用Wilcox Rank Sum test 检验该bin的 between interactions的normalized contact frequency(校正距离) 是否显著小于 within interactions的normalized contact frequency

    使用 Wilcox p-value < 0.05 对 local minima 进行过滤。

    local minumum → TD

    对于由两个相邻的local minima确定的一段region:

    1. 如果region内所有bin都满足 P<0.05,则认为该region为boundary region(或TD-free chromatin region)
    2. 否则认为 region 为 TD

    注:作者指出,绝大多数local minima都满足 p<0.05,因此在此步仅有很少的bin被过滤


    如何选择 window size / TD质量评估

    随着window size w的增大,鉴定得到的TD的size增大而数目减少。

    Figure 2 | TD 大小与数目随window size变化的关系

    为了选择一个恰当的window size,首先需要一个找到一个指标用于评估计算出来的TD的合理性。

    作者考虑到TD的一个重要性质是:位于同一个TD内部的bins的 contact frequency profiles 有更高的一致性。因此,作者计算每个TD内的任意2个bin之间Pearson相关系数(Pearson correlation coefficient),认为PCC越高的window size越合理。

    比较TopDom和已有方法

    作者将TopDom与2种已有的方法(DI[2], HiCseg [5])进行比较(基于数据:mESC, mCortex, hESC, IMR90)

    1. TopDom 鉴定到的TD数目更多,size更小
    2. 基于3种质量指标(intra-TD PCC, intra-TD wPCC, Intra-inter Diff),TAD表现均更优(IMR90除外)

    ![Table 1 | 比较3种方法鉴定的TD的大小与数目] (https://img.haomeiwen.com/i21550152/a06e48a22bbcbd22.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

    Figure 5 | 比较3种方法鉴定的TD的质量

    参考文献

    [1] Sexton,T., Yaffe,E., Kenigsberg,E., Bantignies,F., Leblanc,B., Hoichman,M., Parrinello,H., Tanay,A. and Cavalli,G. (2012) Three-dimensional folding and functional organization principles of the Drosophila genome. Cell, 148, 458–472
    [2] Dixon,J.R., Selvaraj,S., Yue,F., Kim,A., Li,Y., Shen,Y., Hu,M., Liu,J.S. and Ren,B. (2012) Topological domains in mammalian genomes identified by analysis of chromatin interactions. Nature, 485, 376–380.
    [3] Hou,C., Li,L., Qin,Z.S. and Corces,V.G. (2012) Gene density, transcription, and insulators contribute to the partition of the Drosophila genome into physical domains. Mol. Cell, 48, 471–484.
    [4] Filippova,D., Patro,R., Duggal,G. and Kingsford,C. (2014) Identification of alternative topological domains in chromatin. Algorithms Mol. Biol., 9, 14.
    [5] Levy-Leduc,C., Delattre,M., Mary-Huard,T. and Robin,S. (2014) Two-dimensional segmentation for analyzing Hi-C data. Bioinformatics, 30, I386–I392.
    [6] Rao,S.S., Huntley,M.H., Durand,N.C., Stamenova,E.K., Bochkov,I.D., Robinson,J.T., Sanborn,A.L., Machol,I., Omer,A.D. and Lander,E.S. (2014) A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell, 159,
    1665–1680.
    [7] Ray,B.K. and Ray,K.S. (1993) Determination of optimal polygon from digital curve using L 1 norm. Pattern Recognit., 26, 505–509.
    [8] Ray,B.K. and Ray,K.S. (1994) A non-parametric sequential method for polygonal approximation of digital curves. Pattern Recognit. Lett., 15, 161–167.

    相关文章

      网友评论

        本文标题:文献阅读 | TopDom: an efficient and

        本文链接:https://www.haomeiwen.com/subject/xyromltx.html