吐槽达人再次上线!最近在分析WGBS,跳了很多坑!为什么很多的比对软件默认只对CpG排序?我们大植物领域CHG和CHH同样重要!好吗?好的!今天就我在分析甲基化过程中遇到的一个参数问题,写一下,供大家参考,尤其是做植物的小白们。
三代测序数据,分析起来说难也不难,无非就是建索引,比对,然后call自己想要的东西。甲基化的分析软件很多,bismark是一个经典的比对软件,至于怎么用,我会在文末附上参考的大神们的简书,一看便知。今天只讲一些小坑。
DNA甲基化,与癌症息息相关。因此在动物中研究的很多,而动物和植物中存在着不小的差别,最重要的就是动物中的甲基化类别是CpG,而在植物中,除了CpG之外,CHG和CHH同样是很重要的。但是一些分析软件默认是CpG,需要我们加上一些参数才可以对CHG和CHH进行下一步分析。
./bismark_methylation_extractor -s --gzip --bedGraph --buffer_size 10G --cytosine_report --comprehensive --genome_folder ~/PATH/to/GRCh38/test_data_bismark_bt2.bam 2>extracor.log
这是某位大神的抽提甲基化位点的参数设置,用此参数,基本上可以获得所有想要的数据,包括CHH_context,CHG_context,CpG_context。但是在排序得到.bedGraph.和.cov文件时,默认只对CpG_context文件进行排序。若想得到CHH和CHG的.cov文件,需要加一个参数。如下:
./bismark_methylation_extractor -s --gzip --bedGraph --CX --buffer_size 10G
--cytosine_report --comprehensive --genome_folder ~/PATH/to/GRCh38/
test_data_bismark_bt2.bam 2>extracor.log
对,就是--CX,这个参数可以同时对CHH_context,CHG_context,CpG_context进行排序,得到.cov和.CX_report文件。此类文件是用DSS包call DMR时的输入文件,只要用shell稍微改一下格式就可以用,后面也会附上另一位大神使用DSS包的方法。
上图就是加了--CX之后的输出的report文件,每一列分别代表染色体,位置,正反链,甲基化位点数目,未甲基化位点数目,甲基化类型,以及甲基化类型对应的碱基。
如果你已经入坑了,也就是说没有加--CX,但是重新跑又特别费时间,怎么办?简单!下载bismark的时候,有没有发现一个叫bismark2bedGraph的脚本?在这里,这是个神奇的脚本,只需要输入下面这一行命令:
./bismark_v0.22.1/bismark2bedGraph --CX -o output_name CHG_context_your_file_name_bismark_bt2_pe.txt.gz
--CX不能少啊,不然还默认只能对CpG排序。做植物的太不容易了!上述命令是对CHG进行排序,CHH也是一样的操作。
好了,这样就可以对生成的.cov文件稍微搞一下,用DSS包call DMR吧。
个人建议还是第二种方法好一点,在获得DSS包的输入文件时,第一种方法用.report文件提取比较方便,第二种方法是用.cov文件提取比较方便
祝君顺利!
reference:
bismark使用参考简书:https://www.jianshu.com/p/5d7e550abc1a
DSS包使用参考简书:https://www.jianshu.com/p/203ac75c0c32
网友评论