美文网首页
下载参考基因组后进行完整性检验、建立索引

下载参考基因组后进行完整性检验、建立索引

作者: vicLeo | 来源:发表于2019-12-29 12:12 被阅读0次

    摘录自:https://blog.51cto.com/xiangpang/1711603

                   https://www.jianshu.com/p/9b15fa1f1a6f

                   https://www.jianshu.com/p/75404f813e0a

    md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相同。在网络传输时,我们校验源文件获得其md5sum,传输完毕后,校验其目标文件,并对比如果源文件和目标文件md5 一致的话,则表示文件传输无异常。否则说明文件在传输过程中未正确传输。以hg38为例进行操作。

    一、下载 所需要的hg38.fa.gz 和质量控制文件md5sum.txt,进行完整性检验。

    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

    cat md5sum.txt

    挑选 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz 

    echo 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz > check_md5sum_hg38.md5

    md5sum -c check_md5sum_hg38.md5  #测试时使用的是".md5"后缀,注意前后名称要保持一致

    hg38.fa.gz: OK #表示所下载的hg38文件及格

    md5sum的选项:

    -b 以二进制模式读入文件内容

    -t 以文本模式读入文件内容

    -c 根据已生成的md5值,对现存文件进行校验

    --status 校验完成后,不生成错误或正确的提示信息,可以通过命令的返回值来判断。

    二、解压文件hg38.fa.gz做准备

    gunzip hg38.fa.gz   ##谨记!

    由于建立索引的时间过长,建议挂到服务器后台运行

    bowtie2-build hg38.fa hg38 #bowtie2 建立索引

    nohup bowtie2-build hg38.fa hg38 & > nohup01.out

    PS: 下载参考基因组及比对软件的代码:

    下载的小鼠基因组

    cd ~/reference

    mkdir -p  genome/mm10  && cd genome/mm10

    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz  &

    tar zvfx chromFa.tar.gz

    cat *.fa > mm10.fa

    rm chr*.fa

    下载hg19:

    cd ~/reference

    mkdir -p genome/hg19  && cd genome/hg19

    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

    tar zvfx chromFa.tar.gz

    cat *.fa > hg19.fa

    rm chr*.fa

    下载hg38

    cd ~/reference

    mkdir -p genome/hg38  && cd genome/hg38

    nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &

    bowtie软件建立索引文件

    cd ~/reference

    mkdir -p index/bowtie && cd index/bowtie

    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg19/hg19.fa  ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &

    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg38/hg38.fa  ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &

    nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/mm10/mm10.fa  ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &

    bwa软件建立索引文件

    cd ~/reference

    mkdir -p index/bwa && cd index/bwa

    nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/hg19  ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1  &

    nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/hg38  ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1  &

    nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/mm10  ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1  &

    hisat软件建立索引文件

    cd ~/reference

    mkdir -p index/hisat && cd index/hisat

    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &

    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &

    nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &

    tar zxvf hg19.tar.gz

    tar zxvf grcm38.tar.gz

    tar zxvf hg38.tar.gz

    相关文章

      网友评论

          本文标题:下载参考基因组后进行完整性检验、建立索引

          本文链接:https://www.haomeiwen.com/subject/ktryoctx.html