刘小泽写于2020.3.31
之前介绍了:
了解ChIP-seq的实验流程
继续了解ChIP-seq
这次来看看实验设计中的对照设置与偏差来源
1 ChIP-seq的对照
阳性对照
一般阳性对照不进行测序;用anti-RNA polymerase II抗体,因为RNA polymerase II是通用转录因子,在所有细胞中都能结合基因的核心启动子区,因此理论上,ChIP后PCR会有条带
阴性对照
一般有三种:
-
input DNA:【少了加抗体的步骤】在交联和超声裂解后,并没有加入抗体,跳过了免疫沉淀过程,直接将这些DNA进行测序
设置input是必要的:因为超声破碎过程中DNA的断裂不均一,尤其是一些开放染色质区域;未经过IP的样本超声破碎后会产生数量不小的peaks
input DNA是最常用的:可以有去除背景噪音的作用(排除因本身表达水平高或一些非特异性结合所造成的假阳性peaks);
另外IP与input比较可以验证染色质断裂效果,判断ChIP效率(如果用同一引物进行PCR,ChIP组和input组亮度差不多,说明ChIP效率高,样本中所有的目的基因片段都被ChIP下来了)图片来自:https://yourgene.pixnet.net/blog/post/92801087-chip-seq%E5%B8%B8%E8%A6%8B%E7%9A%84%E5%95%8F%E9%A1%8C
image -
mock IP DNA:【步骤一样但没有抗体】和常规的ChIP-seq流程一样,但并没有使用特异性抗体
-
Nonspecific IP DNA:【步骤一样但换了抗体】和常规的ChIP-seq流程一样,但它是用普通IgG为抗体。这个IgG有个特点:不能结合染色质上任何蛋白质,理论上不会ChIP下来任何DNA片段
不过由于非特异结合,或者实验过程中,没有发生结合的DNA清除不完全,可能也会出现条带,导致后期建库过程中PCR循环数增加,不能达到作为对照去除背景噪音的目的
另外,在研究组蛋白修饰时,使用pan-H3或pan-H4抗体作为对照可能是个不错的选择。它们能识别H3或H4但又不会考虑修饰位点。总而言之,不管修不修饰它都会捕获到。
2 实验偏差(bias)的来源
来源一:染色质裂解不均一
正如上面所说,设置input的一个重要原因就是:超声破碎过程中DNA的断裂不均一,尤其是一些开放染色质区域,这也是最重要的bias来源。
越开放的地方(如开放染色质区域),越容易断裂成适当长度,从而被抓取出来,后期出现的频率就越高,越容易形成假的peaks;而一些本来就紧凑不易伸展的区域,当然也不好断裂,于是后面出现的机会就更少
另外,裂解不均一和PCR扩增偏差主要发生在GC富集区域,基因组上的reads分布与基因组区域GC含量成正比。这个现象在哺乳动物细胞中尤为常见,常染色质区域由于存在CpG岛而经常富集reads,因此在比较CpG岛和其他区域时也要注意这个bias
CpG岛:主要位于基因的启动子和外显子区域,是富含CpG二核苷酸的一些区域,长度为300—3000bp。在哺乳动物中CpG位点以两种形式存在:一种是分散于DNA序列中;另一种呈现高度聚集状态,称之为CpG岛(CpG island);正常组织里,70%~90%散在的CpG是被甲基修饰的,而与之相反,大小为100-1000bp左右且富含CpG二核苷酸的CpG岛,则往往非甲基化的
GC bias与PCR:二代数据体现出的测序深度与GC 含量的相关性就是GC bias。
- 来自deeptools的解释(https://deeptools.readthedocs.io/en/develop/content/tools/computeGCBias.html)In reality, the DNA polymerases used for PCR-based amplifications during the library preparation of the sequencing protocols prefer GC-rich regions. This will influence the outcome of the sequencing as there will be more reads for GC-rich regions just because of the DNA polymerase’s preference.
- 来自文章:DNA polymerase preference determines PCR priming efficiency(https://www.ncbi.nlm.nih.gov/pubmed/24479830)PCR is known to introduce biases, especially during multiplex reactions. DNA polymerase as the primary source of bias, particularly initiation of polymerization on the template strand. Preferentially amplified sequence motifs at the 3’ end of the primer were identified. These motifs demonstrated a marked GC-rich bias pattern.
统计GC含量与测序深度:
- http://www.bio-info-trainee.com/2309.html,趋势就是:GC含量比较高的窗口,有着相应比较高的测序深度!
- http://blog.sciencenet.cn/blog-3406804-1165467.html,提供了脚本
来源二:数据计算
在比对阶段,只有unique比对的reads才被保留下来,这样会使得重复序列区域的覆盖度很低。另外,癌症样本的基因组和参考基因组序列不同,有的样本中某些基因组序列会缺失,拉低整体,间接导致另一些重复扩增的序列看似“富集”。
因此,在数据处理阶段,设置一个ChIP样本的对照是很有必要的,可以控制假阳性peaks;如果没有对照(例如ChIP-exo),也可以比较不同实验设计的样本
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com
网友评论