WGS实战笔记(二)

作者: liu_ll | 来源:发表于2018-11-19 21:50 被阅读1次

    -----------------------------------------分割线-------------------------------------------------------


    补上上次的Fastqc的图,可以直接点开网页看看质控后的结果
    Fastqc的结果

    ------------------------------------华丽丽分割线ending------------------------------------------
    去除掉了测序的接头和一些低质量的碱基之后,下一步就是可以把结果进行比对了,这里我采用的是bwa mem方法。(PS:需要提前建立好索引文件index)

    cd /asnas/sunyl_group/liull/TNBC_test/Rawdata/BCA0106-2/2_bwa
    index=/asnas/sunyl_group/liull/Database/hg38/chroms-index/hg38.fa 
    sample1=/asnas/sunyl_group/liull/TNBC_test/Rawdata/BCA0106-2/1_qc/output_BCA0106-2_R1_paired.fq.gz 
    sample2=/asnas/sunyl_group/liull/TNBC_test/Rawdata/BCA0106-2/1_qc/output_BCA0106-2_Rnas2_paired.fq.gz  
    bwa mem -t 4 -M -R "@RG\tID:L1\tSM:BCA0106-2\tLB:WGS\tPL:Illumina" $index $sample1 $sample2 > BCA0106-2.paired.sam
    

    根据这一步,可以得到一个sam文件,因为sam文件比较大,一般是倾向于转成bam文件,而且对bam文件进行排序。将排序好的bam文件进行后续的分析。
    为什么要进行bam文件的排序呢?有一篇教程里写的非常详细了
    FASTQ文件里面这些被测序下来的read是随机分布于基因组上面的,第一步的比对是按照FASTQ文件的顺序把read逐一定位到参考基因组上之后,随即就输出了,它不会也不可能在这一步里面能够自动识别比对位置的先后位置重排比对结果。因此,比对后得到的结果文件中,每一条记录之间位置的先后顺序是乱的,我们后续去重复等步骤都需要在比对记录按照顺序从小到大排序下来才能进行,所以这才是需要进行排序的原因.[1]
    但是跟教程接下来sam转成bam,然后再进行bam排序(samtools 的sort命令)这种多步骤不一样,可以直接用picard一步到位!
    这个也算是跟之前的版本教程不一样的地方了!

    java -Xmx4g -jar /asnas/sunyl_group/liull/software/picard.jar SortSam I=./BCA0106-2.paired.sam o=./BCA0106-2.paired.sorted.bam SORT_ORDER=coordinate
    

    这里贴上picard的SortSam的帮助文档~


    Picard.SortSam的帮助文档

    用JAVA调用,I 是输入Imput的文件,O是输出Ouput的文件,SortOrder是输出文件的排序方式,可以有不同的备选。

    踩的坑:
    1:从网上看到的一个代码

    samtools sort ./BCA0106.paired.sam --output-fmt BAM -o ./BCA0106-2.paired.sort.bam 
    

    结果生成了很多的tmp.bam文件


    生成的bam的很多临时文件

    结果我用了samtools merge的命令生成了一个bwa.sorted.bam
    2:samtools 先从sam转成bam很花时间,再从bam转成sorted.bam也很花时间(具体的还是根据设置的节点和内存大小判断呀,我因为参数不熟,在这两步花的时间很长,不要问我怎么知道的。。。。。。)

    相关文章

      网友评论

        本文标题:WGS实战笔记(二)

        本文链接:https://www.haomeiwen.com/subject/ytqzfqtx.html