Chromatin interaction neural network (ChINN): a machine learning-based method for predicting chromatin interactions from DNA sequences
染色质相互作用神经网络(ChINN):一种基序机器学习的方法,用于从DNA序列预测染色质相互作用
期 刊 名:Genome Biology
影响因子:17.906
发表日期:2021.8.16
下载地址:https://genomebiology.biomedcentral.com/track/pdf/10.1186/s13059-021-02453-5.pdf
一、摘要
染色质相互作用在调节基因表达中起重要作用。然而全基因组染色质相互作用数据的可用性是有限的。作者开发了一种计算方法,染色质相互作用神经网络(ChINN),可以仅使用DNA序列来预测开放染色质区域之间的染色质相互作用。 ChINN可预测与CTCF和RNA聚合酶Ⅱ相关的和HiC染色质相互作用。同时还具有良好的跨样本性能,并可以捕获各种序列特征用于染色质相互作用预测。
这篇文章将ChINN应用于6个慢性淋巴细胞白血病患者样本(CLL)和已发表的84个CLL开放染色质样本集。研究表明CLL患者样本中染色质相互作用存在广泛的异质性。
二、ChINN模型构建
①正负集合的构建
数据
ChIA-PET | Hi-C | ||
---|---|---|---|
GM12878 | CTCF | GM12878 | K562 |
GM12878 | Pol Ⅱ | HeLa-S3 | KBM7 |
HeLa-S3 | CTCF | HMEC | NHEK |
K562 | Pol Ⅱ | HUVEC | |
MCF-7 | Pol Ⅱ | IMR90 |
正集
正集样本建立流程负集
对于每个数据集从四个来源生成相应的负样本。
source1:没有直接或间接链接的聚集染色质相互作用的锚被用作阴性样本
source2:来自构建ChIA-PET/HiC文库的转录因子的ChIP-seq数据的随机峰对。
source3:来自构建ChIA-PET/HiC文库的细胞系的DNase-I数据的随机峰对。
source4:间接链接的成对的簇状染色质相互作用锚。
生成了两种类型的负集:距离匹配样本(distance-mached) 的负集和 扩展(extended)的负集。
① 对于每个正集通过对前三个来源的负样本进行采样,生成一个距离匹配的负集,使正负比约为1:5,并且距离分布匹配。
② 对于每个正集,通过来自source4的对、对应的距离匹配负集和来自source1和2的剩余负样本组成的称为扩展数据集(extenede dataset)
②模型建立
- 为序列模型准备输入
提取所有锚的序列转换为4*L 的onehot编码矩阵,其中L是序列的长度。矩阵的四行分别代表核苷酸 A、G、C 和 T 的出现。因此,核苷酸 A 表示为 [1, 0, 0, 0]T,核苷酸 G 表示为 [0, 1, 0, 0]T,核苷酸 C 表示为 [0, 0, 1, 0]T,核苷酸T表示为[0, 0, 0, 1]T。如果在序列中遇到 N,则表示为 [0.25, 0.25, 0.25, 0.25]T。对于每个序列,我们将其分成 1000 bp 的子区域,连续子区域之间有 500 bp 的重叠。
三、结果
- 开放染色质相互作用可以从功能基因组特征来预测
使用梯度增强树为每个数据集建立模型。测试了三个特征集(1)所有常见的功能基因组数据和距离(2)仅常见功能基因组数据(3)仅距离。如图所示PR曲线显示了不同特征的预测结果。这些结果表明,虽然单独的距离不能预测染色质相互作用,但考虑到GB模型的工作机制,将距离特征与其他特征结合起来有助于区分染色质的正负相互作用。
跨样本的表现低于样本内的表现。使用峰值计数而不是信号值会产生更好的跨样本性能,但会降低样本内性能。
- 开放染色质相互作用可以从DNA序列中预测出来
作者以使用DNA序列预测开放染色质区域之间的染色质相互作用。发现使用序列对CTCF ChIA-PET数据集产生更好的样本内性能。
将距离作为分类器的特征,略微提高 了距离匹配数据集的性能。CTCF模型的跨样本性能表现出很好的相互通用性。
- 收敛的CTCF模体对于预测CTCF相关的开放染色质相互作用是重要的
观察到了对预测很重要的序列特征,由于在CTCF环的锚定区域中观察到汇聚的CTCF,这表明CTCF ChIA-PET锚定处的其他序列特征或结合基序也可能具有这种汇聚方向。
- 从开放染色质区域预测染色质相互作用
居于验证数据集测试了合并距离和扩展大小的不同组合,并确定3000bp的合并距离和1000bp的扩展大小用于在GM12878细胞系中构建锚。 在交叉样本评价中,CTCF模型在HelaS3数据集上的auPRC为0.359,RNAPolII模型在K562和MCF-7数据集上的auPRC分别为0.232和0.164(图4b)。我们能够使用4C-seq来验证MCF-7细胞中一些预测的染色质相互作用(附加文件1:图。S5b-d).一些经过验证的染色质相互作用没有被MCF-7RNAPolIIChIA-PET数据集捕获,因此ChINN能够识别真正的染色质相互作用,这些相互作用以前可能由于序列覆盖不足而被遗漏。
- 探索患者样本中的染色质相互作用
下图显示了6个新的CLL样本中预测的染色质相互作用以及uCLL和mCLL样本之间的差异。根据选定的阈值,GM12878Hi-C模型共预测了152,202个与Hi-C相关的开放染色质相互作用
作者发现了广泛的患者异质性(图5e,f),这是从新CLL样本中染色质相互作用缺乏相似性以及新CLL样本与GM12878Hi-C峰之间的重叠峰观察到的。例如,图5e显示,37%的Hi-C鉴定的染色质相互作用只能在一个样本中发现,而在其他5个样本中没有发现。这表明,许多开放的染色质相互作用只能在一个样本中发现,这说明了开放染色质区域的存在和缺失及其相关的染色质相互作用的异质性水平。
想了解更详细的内容可下载原文进行阅读。
网友评论