PBAT文库

作者: 浩渺予怀 | 来源:发表于2019-02-18 14:06 被阅读0次

Post Bisulfite Adapter Tagging (PBAT)，是Bisulfite建库过程中先转化后加接头的一种建库方式。

提要：

PBAT文库特点

PBAT比对率为何如此之低，令人发指

PBAT数据如何优雅的比对

由于PBAT文库包含大量的嵌合的reads，PBAT文库数据相较于Whole Genome Bisulfite-Seq（WGBS）文库，其比对率明显偏低。

早前，PBAT方法（单端数据）公布后，人们立即进行方法的优化（针对极低起始量）。但人们也很快注意到双端实验数据的比对率相当低。开始意识到接头污染和低质量basecall的问题，但直到今天，即使trim掉接头、低质量碱基后，仍然可以遇到低比对率的情况。

# 我的体验是比对率一直很低，很好双端数据能上60%。

一个案例：

使用Trim Galore去掉reads开始的建库接头（建库时强制加入的接头，有protocol建议10bp）；并按10，20,30 etc长度截掉3`端的碱基后再进行比对。随着reads长度的截短，比对率缓慢上升（尽管较短的reads难以进行比对且会造成多重比对率的上升）。

数据截短后比对测试

“这说明一定是什么东西阻碍reads比对到基因组”

一个探究

首先怀疑测得的插入片段可能跨越不同的基因组序列（现在不正流程明星搞跨界捞金么），可能建库中随机引物和链延伸造成的。为了检测这些嵌合reads是否真的存在于Read1和Read2，对比对上的reads进行分组（按照read ID）。

这时借助SeqMonk 软件观察比对的情形，就像输入一个类似HiC数据的BAM文件一样，可以观察到配对reads的比对关系。下图展示的是全部配对reads的定量结果，一端（Read1）比对到了染色体1，其中红色是高数目的配对reads，蓝色是低数目的配对reads。这表明，大部分的Read2同样比对到了染色体1上，也即有效的双端比对。

Read1全比对到染色体1可视化

然鹅，很明显的看出有相当多的reads对是反式的，read1位于染色体1而read2位于其他染色体。这个数据案例中trans-reads的比例占全部双端比对数据的30%，确实是一个大问题。

如何最好的比对

这里使用非常流行的bismark比对软件，当然其他类似的软件也可以。

1、双端比对：加 --pbat 参数和--unmapped（输出未比对的Read1和Read2）。双端比对的reads即可用于methylation calling，地球人都知道；

2、未比对上的Read1继续采用单端比对模式（加--pbat参数）；

3、未比对上的Read2继续采用单端比对模式（默认参数，即链特异性模式）。

单端比对的R1和R2随后进行正常的methylation calling。随后PE和SE的methylation calling结果合并到一起再使用bismark2bedGraph进行下游的处理。

PBAT数据原本比对率就低，进行SE就是为了挽救挽救挽救一些数据，单端比对的数据们也是追求进步的人士。

# 个人认为PE、SE比对后合并比对结果再进行deduplication和methylation calling也是可行的。

软件列表

软件地址已经写到脸上了

Trim Galore：数据接头trim

Cutadapt：过滤接头、长度截取等

Bismark：bisulfite数据比对

SeqMonk：比对可视化

参考

站在巨人的肩膀上，比巨人看的更远。

https://sequencing.qcfail.com/articles/pbat-libraries-may-generate-chimaeric-read-pairs/

网友评论

BS-seq

本文标题：PBAT文库

本文链接：https://www.haomeiwen.com/subject/jxraeqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

PBAT文库

一个案例：

如何最好的比对

软件列表

参考

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

BS-seq