2021-05-07没有bam文件没有RG

作者: AsuraPrince | 来源:发表于2021-05-07 15:38 被阅读0次

2021-05-07没有bam文件没有RG
利用python中的pysam模块做一些简单的数据统计（BAM文
IGV的使用
bam/sam数据格式——转载
生信实用工具：快速的多线程分割bam文件工具
samtools软件的使用
文章复现-全外显子数据分析学习7-bam文件载入igv可视化
SAMtools——bam文件排序
WES2Neoantigen Pipeline
常见格式——bam

问题起因：在用gatk进行HaplotypeCaller时，报错

原因是在用hisat2或者bwa比对是没有添加RG；hisat2（参数为--rg），bwa（参数为-R）

而GATK2.0以上版本将不再支持无头文件的变异检测。加头这一步可以在BWA比对的时候进行，通过-r参数的选择可以完成。如果在BWA比对期间没有选择-r参数，可以增加这一步骤。可使用picard-tools中AddOrReplaceReadGroups完成（https://www.cnblogs.com/daimakun/p/5089324.html）。

加表头可以通过两种方式：samtools reheader和picard AddOrReplaceReadGroups （https://blog.csdn.net/viancheng/article/details/107063765）

所以目前问题可以通过加表头解决：

picard AddOrReplaceReadGroups I=SRR10052239.rmdup.bam O=test1.bam RGID=SRR10052239 RGLB=SRR10052239 RGPL=ILLUMINA RGPU=unit1 RGSM=SRR10052239 &>test1.log &

这几个参数是必须的：

RGID：输入reads集ID号（可以是SRR10052239）

RGLB：read集文库名（同样可以为SRR10052239；在bwa -R不用定义，所以不重要？）

RGPL：测序平台（ILLUMINA）

RGPU：测序平台下级单位名称（run的名称；在bwa -R不用定义，所以不重要？）

RGSM：样本名称（SRR10052239）

Note:以picard AddOrReplaceReadGroups I=SRR10052239.rmdup.bam O=test1.bam RGID=4 RGLB=lib1 RGPL=ILLUMINA RGPU=unit1 RGSM=SRR10052239 &>test1.log &进行测试；生成的结果可以正常生成g.vcf文件，证明填写好RGPL和RGSM就好了，其他不重要！！！

Note：参考生信技能树的课程，他bwa时也没有添加readgroup；

但是通过AddOrReplaceReadGroups.jar同时实现了sort和添加readgroup？？（http://www.bio-info-trainee.com/838.html）