问题的提出
单细胞测序,在BS数据分析中,最常用的比对工具就是BSMAP和bismark。然后发现之前用于常规BS-seq的流程用着都挺顺,到scBS-seq(single cell BS seq)数据的时候就不行了。数据质量不错,就是比对率奇低。到底问题出在哪里呢?
无论是BSMAP[1]还是bismark[2]都涉及到一个有关文库方向性的参数:
意思是:
n设为1时,不管是SE还是PE都比对到4条链:BSW(++)、BSC(-+)、BSWR(+-)和BSCR(--)。
该参数对应到bismark中的--non_directional参数:
意思是,一般常规Illumina的BS-seq文库都是具有方向性的文库,该参数应该设为OFF。
我们发现这个有关文库方向性的参数对比对速度的影响是很大的,因为它涉及到Reads是比两条链还是比四条链的问题。
要解答这个问题,我们需要看一下BS-seq文库构建中序列变化:
我们发现:BS转化之后,W链(Watson链)和C链(Crick链)被转化为BSW和BSC链。在PCR之后,所有BSW和BSC链都是由C->T;而他们的互补链BSWR链和BSCR链都是G->A。
结论就是:
WGBS测序下机数据我们使用fastqc进行测序质量检测,有一张Read四碱基比例的图。
C基本为0,T很高,提示read1由C->T转化而来。实际上,read1就是PCR后产生的BSW和BSC两条链,它们建库时连接的是P5接头,所以全保存在read1中。
Read2的四碱基比例:
G基本为0,A很高,提示read2由G->A转化而来。实际上,read2就是PCR后产生的BSWR和BSCR两条链,它们建库时连接的是P7接头,所以全在read2。
总之,源于末端加A和Adapter-T,包括Y型接头的设计,常规建库实际上read1测的都是原始链(W与C),read2测的都是PCR扩增产生的互补链(WR和CR)。
也就是说,对于常规BS-seq文库,它们都是方向性的,BSMAP的-n参数都应该设置为0;-bismark的--non_directional参数都应该设置为OFF(均为默认参数)。
那对于单细胞scBS-seq建库,文库是不是也是方向性的呢?是不是也只需要设置默认参数呢?
先将gDNA进行BS转换/片段化,然后添加带有9碱基随机引物Oligo1,经过5轮随机扩增(带P5接头),以增加DNA产量,然后用利用Oligo1末端的生物素调出PCR产物。类似地,添加带有9碱基随机引物Oligor2(带P7接头),PCR扩增产生测序文库。
这里有两点需要注意:
1. 相比常规BS-seq,scBS-seq在连接接头之前进行BS转化,这样就避免了连接接头之后的gDNA在BS转化过程中不必要的断裂损失。
2. scBS-seq在最开始使用随机引物进行了多轮随机PCR扩增,以此增加DNA产量,这个过程使得scBS文库已经不具有方向性。
显而易见,对于scBS-seq数据,比对参数应当按照非方向性文库来设置参数,而不能使用默认参数。使用默认参数就是最开始比对率低的原因了。
参考文献:
1. Xi, Y., & Li, W. (2009). BSMAP: whole genome bisulfitesequence MAPping program.BMC bioinformatics,10(1),232.
2.Krueger, F., & Andrews, S. R. (2011). Bismark: a flexiblealigner and methylation caller for Bisulfite-Seq applications.bioinformatics,27(11),1571-1572.
3. Clark, S. J., Smallwood, S. A., Lee, H. J., Krueger, F.,Reik, W., & Kelsey, G. (2017). Genome-wide base-resolution mapping of DNAmethylation in single cells using single-cell bisulfite sequencing(scBS-seq).Nature protocols,12(3), 534.
网友评论