saddleplot | A/B compartments

作者: 生信云笔记 | 来源:发表于2023-03-10 16:19 被阅读0次

日常瞎掰

  HiC-seq可以用来研究基因组范围内的染色体片段之间的交互情况,这其中会涉及到染色质区室(A/B compartments)的变化情况。HiC的相关概念这里不再多说,不了解的可以查阅之前的帖子[HiC相关概念总结]。今天我们来说说saddleplot的事,一个可以展示染色质区室开放及交互情况的热图。先一睹为快,如下图。

绘图

  saddleplot主体本身就是一个普通的热图,没有什么特别的地方,只要得到了绘图矩阵用绘图就很简单了。其实,关键就在于绘图数据的获得,想要获得数据得先知道应该用哪些数据以及如何计算。不过,好在这些耗费精力的事情已经有人做了,咱们有时候更多的是站在巨人的肩膀上,使用现成的软件探索数据本身的意义。当然,毕竟现在厉害的人很多,人家解决问题的方式可能是造一个可以解决问题的工具,所以,可以用来绘制saddleplot软件也有不少。工具不在于多,能解决问题就行,咱们今天就来说说如何用cooltools作图。这个工具是用python编写,可以在命令行直接调用,或者在python里面导入使用。

  1. 命令行调用
      下面使用软件自带的数据演示,数据链接https://osf.io/3h9js/download,如果用window浏览器下载会得到名为test.mcool的文件,而在linux里面用wget下载最好重新命名一下,否则文件名就叫download。这个文件格式是mcool,里面包含1k10k100k1M四个分辨率的矩阵数据。注意,使用的时候需要指定使用哪个分别率的数据,例如下面使用了10k分别率的数据。
# 下载测试数据
wget --no-check-certificate -O test.mcool https://osf.io/3h9js/download

# 绘图过程
cooltools eigs-cis -o test.gc.eigs data/test.mcool::resolutions/100000
cooltools expected-cis -p 5 -o test.obs_exp.tsv data/test.mcool::resolutions/100000
cooltools saddle --contact-type cis --strength --out-prefix test.saddleplot -n 38 --qrange 0.025 0.975 --fig pdf data/test.mcool::resolutions/100000 test.gc.eigs.cis.vecs.tsv test.obs_exp.tsv

结果如下:

  使用命令行绘图还是挺省事的,三行命令即可得到图。不过,不出意外的话意外就会出现了。仔细一看,绘出图中主体热图部分没有问题,可是上面和左边两个直方图好像有问题呀。直方图是体现A/B compartments各自成分内的交互频率,也就是AABB交互的频率。可是,明明从热图上看差异还是挺明显的,怎么直方图却没有波澜呢?原因在哪里呢?经过本人的各种检查数据,最后得出一个结论:这该不会是软件自身的BUG吧!
  从最后一个绘图命令可知,绘图需要三个输入文件:test.mcooltest.gc.eigs.cis.vecs.tsvtest.obs_exp.tsv。不过,确切点说,原始输入只有test.mcool文件,后面两个都是由其计算得到。
  重点来了,其实在使用cooltools eigs-cis命令得到test.gc.eigs.cis.vecs.tsv时,可以提供一个额外的相位文件通过参数--phasing-track指定。该文件是用来矫正A/B compartments信息的,为什么要矫正呢?这是A/B compartments信息是由交互矩阵经过PCA降维得来,具体哪些是A哪些是B,需要明确一下,一般认为值>0为A成分,值<0为B成分。所以,为了数据的准确性,最好提供一下相位文件,相位信息可以来源于基因组的GC含量,或者真实的ChIP-seq数据。相位文件格式如下:

chrom   start   end     GC
chr2    0       100000  0.4358666666666667
chr2    100000  200000  0.40953
chr2    200000  300000  0.42189
chr2    300000  400000  0.43187
  1. 模块导入方式
      我们也可以用python导入cooltools包方式来绘图。采用这种方式的好处就是可以更好的控制输出,如果需要可以做一些自定义的修改。
import pandas as pd
import numpy as np
import cooltools
import cooler
import bioframe
import warnings
from cytoolz import merge

#绘图函数定义,函数代码过多,可以直接到官网拷贝:
#https://cooltools.readthedocs.io/en/latest/notebooks/compartments_and_saddles.html
def saddleplot()

# 读取交互矩阵
clr = cooler.Cooler('test.mcool::resolutions/100000')

# 根据基因组文件获取相位信息
bins = clr.bins()[:]
hg38_genome = bioframe.load_fasta('./hg38.fa')
gc_cov.to_csv('hg38_gc_cov_100kb.tsv',index=False,sep='\t')
gc_cov = bioframe.frac_gc(bins[['chrom', 'start', 'end']], hg38_genome)

# PCA特征向量
view_df = pd.DataFrame({'chrom': clr.chromnames, 'start': 0, 'end': clr.chromsizes.values, 'name': clr.chromnames})
cis_eigs = cooltools.eigs_cis(clr, gc_cov, view_df=view_df, n_eigs=3)
eigenvector_track = cis_eigs[1][['chrom','start','end','E1']]
cvd = cooltools.expected_cis(clr=clr,view_df=view_df)

# 得到绘图的数据
Q_LO = 0.025
Q_HI = 0.975
N_GROUPS = 38 
interaction_sum, interaction_count = cooltools.saddle(clr, cvd, eigenvector_track, 'cis', n_bins=N_GROUPS, qrange=(Q_LO,Q_HI), view_df=view_df)

#绘图
saddleplot(eigenvector_track, interaction_sum/interaction_count, N_GROUPS, qrange=(Q_LO,Q_HI), cbar_kws={'label':'average observed/expected contact frequency'})

结果如下:

  使用代码绘图也不是很麻烦,而且还方便控制输出结果。不过,最重要的是这种方式不会出现上面的BUG,图里面的直方图是正确的。

结束语

  saddleplot作为展示A/B compartments的图,可以很轻松的知道AA、BB、AB、BA四种类型的交互情况,即交互数量和交互强度的估计,可谓一眼就能知道染色质的开放情况。如果多个条件的样本放在一起比较,便可以知道不同条件对染色质开放的影响。一般来说,热图里面从左到右为B->A(从上到下为B->A),不同软件可能会有所不同,对于这点需要留意以免搞反了。顺便提一下,saddleplot还有cistrans的区别,这里展示的是cis结果。最后,附上一篇讲诉saddleplot计算原理的帖子,方便想要学习的同学:https://blog.sciencenet.cn/home.php?mod=space&uid=2970729&do=blog&id=1367103。哦了,今天就到这里了~~~

往期回顾

双曲线火山图一键拿捏
ChIP-seq数据质控
ChatGPT!见证AI的力量!
ChIPseeker绘图函数借用
R语言书籍免费领

相关文章

  • Lan的ScalersTalk第四轮新概念朗读持续力训练Day

    练习材料: 任务配置:L0+L1+L4 知识笔记: compartments n. 隔间( compartmen...

  • Live in Day-tight Compartments

    465天前,有些元素在生活中慢慢消失,新元素将潜意识中林林总总逐一呈现,弥补了几乎所有曾经幻想的样子, 缓慢到来结...

  • Bā Bá Bǎ 爸

    七岁那年的我对什么都很好奇,却唯独不好奇巴掌。 但它还是呼在了我的脸上。 横竖都是一百八的人的巴掌像个充血的铁钯。...

  • 【a, b = b, a +b】Python

    生成斐波那契数列中存在一个不太常见的赋值方式 a, b = b, a+b 在上面的代码中,a, b = b, a+...

  • B b

    50.sich(+für+bei)bedanken 表示感谢 51. den Bedarf an etw.(D)d...

  • B·B

    你遮住我的双眼,告诫我, 外面的世界很黑暗, 我只有在你的庇护下才能成长。 我嘴唇被针缝锁, 说不出一句话, 一天...

  • B.B.B(BigBabyBaby)

    分享Dalshabet的单曲《B.B.B (Big Baby Baby)》:http://music.163.co...

  • python a,b=b,a+b

    a,b=b,a+b 可以拆成 a = b和b = a + b 也就是说等号左边的第一个位置的等于等号右边的第一个位...

  • 1-B-B-B

    他一把把你拉上车。你刚坐稳,马车又扭动了起来。 "Actually, It's only a few minute...

  • python的 a,b=b,a+b 和 a=b b=a+b 的区

    Python中a,b = b , b +a 与 a = b b = a +b 输出的结果是不同的 发现新大陆了,是...

网友评论

    本文标题:saddleplot | A/B compartments

    本文链接:https://www.haomeiwen.com/subject/pwozldtx.html