PBAT文库

作者: 浩渺予怀 | 来源:发表于2019-02-18 14:06 被阅读0次

    Post Bisulfite Adapter Tagging (PBAT),是Bisulfite建库过程中先转化后加接头的一种建库方式。

    提要:

    PBAT文库特点

    PBAT比对率为何如此之低,令人发指

    PBAT数据如何优雅的比对

    由于PBAT文库包含大量的嵌合的reads,PBAT文库数据相较于Whole Genome Bisulfite-Seq(WGBS)文库,其比对率明显偏低。

    早前,PBAT方法(单端数据)公布后,人们立即进行方法的优化(针对极低起始量)。但人们也很快注意到双端实验数据的比对率相当低。开始意识到接头污染和低质量basecall的问题,但直到今天,即使trim掉接头、低质量碱基后,仍然可以遇到低比对率的情况。

    # 我的体验是比对率一直很低,很好双端数据能上60%。


    一个案例:

    使用Trim Galore去掉reads开始的建库接头(建库时强制加入的接头,有protocol建议10bp);并按10,20,30 etc长度截掉3`端的碱基后再进行比对。随着reads长度的截短,比对率缓慢上升(尽管较短的reads难以进行比对且会造成多重比对率的上升)。

    数据截短后比对测试

    “这说明一定是什么东西阻碍reads比对到基因组”

    一个探究

    首先怀疑测得的插入片段可能跨越不同的基因组序列(现在不正流程明星搞跨界捞金么),可能建库中随机引物和链延伸造成的。为了检测这些嵌合reads是否真的存在于Read1和Read2,对比对上的reads进行分组(按照read ID)。

    这时借助SeqMonk 软件观察比对的情形,就像输入一个类似HiC数据的BAM文件一样,可以观察到配对reads的比对关系。下图展示的是全部配对reads的定量结果,一端(Read1)比对到了染色体1,其中红色是高数目的配对reads,蓝色是低数目的配对reads。这表明,大部分的Read2同样比对到了染色体1上,也即有效的双端比对。

    Read1全比对到染色体1可视化

    然鹅,很明显的看出有相当多的reads对是反式的,read1位于染色体1而read2位于其他染色体。这个数据案例中trans-reads的比例占全部双端比对数据的30%,确实是一个大问题。

    如何最好的比对

    这里使用非常流行的bismark比对软件,当然其他类似的软件也可以。

    1、双端比对:加 --pbat 参数和--unmapped(输出未比对的Read1和Read2)。双端比对的reads即可用于methylation calling,地球人都知道;

    2、未比对上的Read1继续采用单端比对模式(加--pbat参数);

    3、未比对上的Read2继续采用单端比对模式(默认参数,即链特异性模式)。

    单端比对的R1和R2随后进行正常的methylation calling。随后PE和SE的methylation calling结果合并到一起再使用bismark2bedGraph进行下游的处理。

    PBAT数据原本比对率就低,进行SE就是为了挽救挽救挽救一些数据,单端比对的数据们也是追求进步的人士。

    # 个人认为PE、SE比对后合并比对结果再进行deduplication和methylation calling也是可行的。

    软件列表

    软件地址已经写到脸上了

    Trim Galore:数据接头trim

    Cutadapt:过滤接头、长度截取等

    Bismark:bisulfite数据比对

    SeqMonk:比对可视化

    参考

    站在巨人的肩膀上,比巨人看的更远。

    https://sequencing.qcfail.com/articles/pbat-libraries-may-generate-chimaeric-read-pairs/

    相关文章

      网友评论

        本文标题:PBAT文库

        本文链接:https://www.haomeiwen.com/subject/jxraeqtx.html