刘小泽写于2020.4.2
之前写了:
了解ChIP-seq的实验流程
继续了解ChIP-seq
上一篇是:关于ChIP-seq的实验对照与偏差来源,介绍了ChIP-seq的阳性对照和阴性对照,以及实验偏差(bias)的来源。这一次看看还有什么其他的需要关注的实验设计方面知识点
1 抗体质量
ChIP-seq是基于抗体的免疫沉淀实验,因此它的数据质量好坏直接取决于抗体的质量和特异性。之前有报道:有公司生产的组蛋白ChIP-grade抗体无效(文章:An assessment of histone-modification antibody quality. https://www.ncbi.nlm.nih.gov/pubmed/21131980)
另外,针对同一蛋白的不同抗体,可能会识别不同的表位(尤其是单克隆抗体)。例如:针对同一个因子设计的抗体中,一个抗体可能结合到启动子区域,另一个可能结合到基因间区。因此建议针对同一感兴趣蛋白测试不同的抗体,通过Western blot检测knock-down前后的差异帮助选择。
2 需要的reads数量
为了捕获所有真实的结合位点,而我们看不见摸不着,只能通过测序的reads去计算来帮助判断,因此测序reads的数量是一个决定因素。
需要多少reads呢?这个取决于基因组的大小和感兴趣因子的结合方式(sharp regions for TFs and broad regions for histone marks)
哺乳动物中,鉴定TFs至少要满足30M,broad histone marks至少要60M,input对照要和ChIP样本保持同样测序深度
有一篇文章:Impact of sequencing depth in ChIP-seq experiments(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4027199/)比较了人和果蝇的测序深度
- For human, there are no clear saturation points for the examined datasets, but our analysis suggests 40–50 million reads as a practical minimum for most marks
- H3K4me3, a point-source modification, is saturated at a lower depth, while H3K27me3, a broad-source modification, requires more reads for saturation.
- 人和果蝇比较 the three marks (H3K4me3, H3K36me3 and H3K27me3):the human profiles reach a plateau at around 40–50 million reads, whereas the fly profiles reach a plateau by ∼20 million reads
note:
- 除了上面两个主要因素,reads数量还取决于抗体质量和免疫沉淀步骤的效率。信噪比越高,需要的reads数可以适当减少
- 当前测序仪的一个lane可以产出至少200-300M的reads,可以满足多个样本一个lane
3 测序中关于reads的要求
一般能设定的reads相关的要求就是:reads长度、单端还是双端测序
大多数的ChIP-seq研究中,read长度和测序类型并不是决定性因素,现在的标准使用单端50nt测序也是足够推断结合位点的。一般来说,更长的或者双端测序reads会有更大的几率唯一比对到基因组,甚至在一些小的重复区域。
note:
如果要想结合到重复区域,最好使用PE测序并选最长的reads,这样reads很可能会超过重复区域的长度,然后用超出部分的比对结果去提高唯一比对的筹码。但不管怎样,重复区域即使使用了这样的方式,依然研究困难并且花费比较大。
4 重复
- 样本重复可以看到实验设计的好坏,选择相关性高的样本进行后续分析
- 技术重复是对一个样本进行重测序得到的,为了提高测序数据的可信度
推荐三个生物重复,但两个现在也能接受(最粗略的实验设计就是:每个ChIP样本2个重复,input只有一个没有重复)
如果样本间的本质差异越大,越需要设置重复,例如从不同人取的样本
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com
网友评论