美文网首页
NCBI,sra数据获取以及处理:生成fastq文件

NCBI,sra数据获取以及处理:生成fastq文件

作者: Shift_shift | 来源:发表于2022-04-14 16:36 被阅读0次

    获取方法一:

    从NCBI获取需要的SAR序列号

    screen -S GSE136447#创建后台程序(可以写shell脚本,存在问题“/r” 可以利用空格;解决换行问题,可以使用nohup XXX.sh &)

    cat /data/shift/GSE136447/GSE136447.txt|while read i#存放的为SAR序列号

    do

    /data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 99999999999999 -O `pwd`  $i && echo "**${i}.sra done**"

    done

    *****注意要根据MD5值判断文件是否完整,否则无法进入下一步操作******

    处理SAR文件

    1.将文件转为fastq格式

    (1)下载fastq-dump.2.8.2

    curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-ubuntu64.tar.gz#从网页下载fastq-dump

    ll

    tar xvf sratoolkit.2.8.2-ubuntu64.tar.gz#解压

    cd sratoolkit.2.8.2-ubuntu64/bin#进入文件

    ll#确定fastq-dump.2.8.2名字,方便后续使用

    pwd#查询当前路径

    echo export PATH=$PATH:/root/sratoolkit.2.8.2-ubuntu64/bin >> ~/.bashrc#将安装路径加入环境变量中

    source ~/.bashrc

    cd ../#回到根目录中

    fastq-dump.2.8.2 -h#可以使用

    (2)fastq-dump使用,数据转换

    fastq-dump.2.8.2 -X 1 --split-spot SRR2240617.sra#判断测序数据类型

    Read 1 spots for SRR2240617.sra

    Written 1 spots for SRR2240617.sra

    fastq-dump.2.8.2 -X 1 --split-spot  -Z SRR2240617.sra | wc  -l#返回值:4:单端SE;8:双端PE

    #single-end 单端测序

    fastq-dump.2.8.2  SRR2240617.sra              # 结果生成SRR5489805.fastq

    fastq-dump.2.8.2  --fasta  SRR2240617.sra  # 结果生成SRR5489805.fastq

    #pair-end  双端测序

    fastq-dump.2.8.2 --split-3  SRR2240617.sra    #  结果生成  SRR2240617_1.fastq,SRR2240617_2.fastq

    2.fastqc质控

    (1)fastqc下载:

    进入下面网址,选择对应的版本下载

    wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip               #不能直接下采用方法

    nohup wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip &#挂后台,这个巨慢,如果执行中间停止了或者出错了,可以继续执行第二次继续,但是结束后要删除之前的下载记录

    unzip fastqc_v0.11.9.zip#解压

     cd FastQC/

    ll

    chmod 700 fastqc#更改权限(u+x)

    pwd#确定fastqc所在位置,方便下次继续执行

    cd ../

    mkdir result#建立新文件夹,方便结果输出

    cd result

    pwd#确定result所在位置,方便下次继续执行

    cd ../

    ll

    #出现图形无法执行问题,利用一下两句

    yum install fontconfig

    fc-cache --force

    nohup /root/FastQC/fastqc -o /root/result -t 6 /root/SRR2240617_1.fastq /root/SRR2240617_2.fastq &

    #会输出四个文件,将输出的html文件传到电脑上直接看就行了

    cat nohup.out

    (2)奇怪的要求,使用fasta

    awk 命令转换

    awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_2.fastq > SRR2240617_2.fasta

    awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_1.fastq > SRR2240617_1.fasta

    相关文章

      网友评论

          本文标题:NCBI,sra数据获取以及处理:生成fastq文件

          本文链接:https://www.haomeiwen.com/subject/wrnasrtx.html