美文网首页
2020-01-14 bwa比对:实操

2020-01-14 bwa比对:实操

作者: 王子威PtaYoth | 来源:发表于2020-01-14 21:08 被阅读0次

    所有的比对工具均基于相同的原则:
    1. 从参考基因组建立一个索引
    2. 将FASTA和FASTQ文件中的序列同索引进行比对

    建立人类的参考基因组索引

    使用哪个参考基因组可参考bwa工具的作者Heng Li 2017年的一篇博文:
    https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
    目前还处于学习阶段,暂先使用GRCh38(hg38)基因组。

    下载参考基因组
    wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
    

    服务器上wget太慢了,开个微皮恩下,飞起来了。

    gunzip ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
    bwa index ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna
    
    执行bwa比对

    ls了一下目录,发现有QLXA_1.fq.gzQLXA_2.fq.gz两个文件。是不是代表这是一个双端测序的文件。

    gunzip QLXA_1.fq.gz
    gunzip QLXA_2.fq.gz
    

    得到了QLXA_1.fq和QLXA_2.fq。
    对FASTQ文件执行FastQC。

    fastqc QLXA_1.fq QLXA_2.fq
    

    得到了FastQC report,发现存在adaptor,在比对中要注意,如何trim暂时还未学习。

    bwa mem进行双端模式比对,输出sam文件

    bwa mem GCA_000001405.15_GRCh38_no_alt_analysis_set.fna QLXA_1.fq QLXA_2.fq > output_untrim.sam
    

    还需要回答几个问题:

    1. 如何选择参考基因组,各个参考基因组之间的差别?
      选择最新版本的参考基因组GHCh38,写了个学习笔记
      《2020-01-14 了解人类不同版本参考基因组及如何选择》https://www.jianshu.com/p/e65115b4633a
    2. QLXA_1.fq和QLXA_2.fq是否是同一样本的双端测序文件,如何检验?
      测序仪测序的时候把文件命名好(嗯?)
    3. 如何trim,比较trim adaptor和不trim adaptor的align score。
      学习《Biostar Handbook》XII QUALITY CONTROL

    相关文章

      网友评论

          本文标题:2020-01-14 bwa比对:实操

          本文链接:https://www.haomeiwen.com/subject/mhoaactx.html