美文网首页Hi-C数据分析
使用FitHiC评估染色质交互作用的显著性

使用FitHiC评估染色质交互作用的显著性

作者: 生信修炼手册 | 来源:发表于2019-08-16 12:52 被阅读5次

欢迎关注”生信修炼手册”!

通过Hi-C技术可以得到全基因组范围内的染色质交互信息, 在不同的分辨率下,首先得到bin之间的交互矩阵contact matrix, 通过热图的形式来展示该交互矩阵,即得到了contact map。在完整的contac matrix的基础上,可以进行A/B隔室,拓扑结构域,染色质环等不同层级空间结构单元的分析。

正是由于覆盖了全基因组范围内的染色质交互信息,才使得hi-C技术可以站在全基因组的高度对不同层级的空间结构进行挖掘,这个是hi-c技术独有的优势。作为3C技术的升级版,hi-c也是可以直接研究某些染色质之间的交互作用的,只不过由于测序和序列比对等系统误差的存在,在交互矩阵中还是有部分信息是不可靠的,为了通过hi-c技术来直接分析某些染色质之间的互作,科学家发明了很多的算法,对交互矩阵中的信息进行评估,通过打分等形式来提取限制性的交互信息,而FitHic就是其中最常用的一款软件。

该软件最初采用python进行开发,后来为了使用方便,将相关功能重写并封装成了一个R包,网址如下

https://bioconductor.org/packages/release/bioc/html/FitHiC.html

对应文章的链接如下

https://genome.cshlp.org/content/24/6/999.full.pdf

该软件的原理示意如下

从原始的交互矩阵中,根据事先定义的距离阈值提取出mid-range,即中等距离的同一个染色质bin之间的交互作用。在文章中指出,对于酵母,中等距离的范围为10kb到25kb, 对于人和小鼠,中等距离的范围为50kb到10Mb,  这里的距离为两个bin之间的线性距离。

根据提取出的mid-range交互信息,首先构建基因组线性距离与交互频率的模型,即图中的spline-1, 在该模型的基础上制定过滤的阈值,即虚线代表的outlier-threshold, 然后提出离群值数据,对应图中的红色原点。对于剩下的数据再次进行拟合,得到spline2。 然后在二项分布的基础上计算每个交互作用的pvalue,再进行多种假设检验的校正,得到qvalue。

该软件的用法简单,只不过需要对原始的交互矩阵进行格式化。一个经典的交互矩阵如下所示

Bin1    Bin2    Bin3    Bin4    Bin5    Bin6
7.85957 4.80329 11.4766 9.57416 4.5288 8.55022
8.61621 4.98956 2.35654 5.69483 11.1187 10.1322
4.06803 4.07801 7.98047 2.59144 6.3851 7.74306
4.52869 2.70624 8.94544 4.29185 8.29491 8.38257

每一行和每一列都代表一个bin, 数字代表两个bin之间的交互频率。在此文件的基础上,经过如下两步即可得到显著性评估的结果。

1.  准备输入文件

该软件至少需要准备两个输入文件,第一个文件为bin对应的染色质区域,称之为fragsfile, 内容示意如下

\t分隔的5列,其中第二列和第五列的信息没有作用,用0或者1填充就可以了,第一列表示bin所在的染色体,第三列代表bin的中心位置, 第三列代表与该bin存在交互的频率总和,即交互矩阵中对应列或者行的总和。

第二个文件为bin之间交互频率的信息,称之为intersfile, 内容示意如下

\t分隔的5列,前两列代表第一个bin的染色质名称和中心位置,第三列和第四列代表第二个bin的染色质名称和中心位置,第五列代表两个bin之间的交互频率。

2.  运行

准备好输入文件之后,就可以运行了,基本用法如下

FitHiC(
fragsfile,
intersfile,
outdir,
libname = "test_project",
distUpThres = 250000,
distLowThres = 10000,
visual = TRUE)

指定两个输入文件和输出结果的目录,libname指定输出文件的前缀,distUpThresdistLowThres指定距离的上下阈值,以此阈值来筛选得到mid-range。

在输出结果中所有文件分成了pass1pass2两个部分,每个部分有对应的以下4张图

第一张图表示基于mid-range的交互信息得到的基因组线性距离与交互概率的分布,第二张图表示拟合得到的分布,第三张图表示拟合模型筛选得到的离群值,第四张图表示不同FDR阈值筛选的显著交互作用的分布。

最终得到的显著性评估结果可以从后缀为pass2.significances.txt.gz的文件中得到,该文件内容示意如下

通过最后一列的qvaue作为阈值,去筛选得到显著性的染色质互作。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

相关文章

  • 使用FitHiC评估染色质交互作用的显著性

    欢迎关注”生信修炼手册”! 通过Hi-C技术可以得到全基因组范围内的染色质交互信息, 在不同的分辨率下,首先得到b...

  • 2020-05-30

    不确定性评估方法: 最大似然估计、倾向评分、置信区间、显著性检验

  • R package:gplots,pheatmap,corrpl

    1 计算相关系数和显著性 2 构建显著性标记矩阵 3 可视化 3.1使用pheatmap包 3.2 使用gplo...

  • 2021-07-06

    在评估连锁不平衡的过程中,显著性水平 p 也是一个很重要的参数,但由于显著性水平在很大程度上依赖于样本量的大小,因...

  • D27 2019-10-24无交互作用的正交试验

    在无交互作用因素的正交试验设计中,正交试验完成后,需要评估正交试验的结果。 1-通过极差法R,哪个极差大,就是影响...

  • 体态评估:视觉评估图

    体态评估:视觉评估图 使用本图例,将你看到的差异画出并进行评估。

  • 9.4 GWAS:显著性阈值确定——GEC

    常用的显著性阈值确定方法是:Bonferroni correction = 显著性水平(0.01/0.05)/检验...

  • 如何增加心智显著性

    首先我们要来解释下,什么是心智显著性。 心智显著性,其实就是我们回忆某种事物的难易程度,程度越简单,心智显著性则越...

  • 3D基因组简介

    一、染色质的拓扑结构 染色质是DNA和蛋白质的复合物,遗传物质被包装在生物细胞内核。染色质结构是动态的并且精确调控...

  • CRISPR-dCas9-表观遗传调控系统

    引言表观遗传调节是往往是通过影响一段染色质的结构起作用,比如将染色质压缩成紧密状态(异染色质),使基因难以转录,或...

网友评论

    本文标题:使用FitHiC评估染色质交互作用的显著性

    本文链接:https://www.haomeiwen.com/subject/hbmfsctx.html