美文网首页
chapter49 SRA命名方案

chapter49 SRA命名方案

作者: esroom | 来源:发表于2020-03-11 21:09 被阅读0次

    SRA(Short Read Archive)数据在一个层次结构中。
    NCBI BioProject:PRJN**** (比如PRJNA257197),是单个研究计划,可能包含多个样本和数据集。
    NCBI BioSample: SAMN**** 或者SRS**** (比如SAMN03254300),每一个独立的样本都会被注册为一个BioSample,有独一无二的标签和属性。
    SRA Experiment: SRX****,一个特定样本的序列库
    SRA Run: SRR**** 或者ERR**** (比如SRR1553610),一个实验的数据集,含有多个样本Sample。

    下载SRA数据

    常用sratoolkit

    fastq-dump下载fastq数据

    #下载双端测序文件
    fastq-dump --split-files SRR1553607
    

    sam-dump下载sam文件

    可以用ftp访问

    所有的SRA数据在ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant

    #下载SRR1972739,得到SRR1972739.sra
    wget -nc ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR197/SRR1972739
    #再用fastq-dump进行转化为fastq,-X只提取前面10000个reads
    fastq-dump -X 10000 --split-files SRR1972739.sra
    

    数据下载地址

    默认为~/ncbi/public/sra/
    注意:即使设置仅下载10000 reads,仍然会全部下载完

    下载SRA数据的常用思路

    首先获得数据的PRJN号,再从中获取数据的SRR号,用fastq-dump下载

    #使用esearch搜索,可见共891个样本
    root:~# esearch -db sra -query PRJNA257197
    
    #下载runinfo
    esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.csv
    #提取其中的SRR
    cat runinfo.csv | cut -d, -f1 | grep SRR > ranids.txt
    #进行下载
    cat ranids.txt | parallel fastq-dump {}
    

    当runinfo信息不足时,下载xml数据

    esearch -db sra -query PRJNA257197 | efetch -format docsum > docsum.xml
    cat docsum.xml | xtract -pattern DocumentSummary -element Bioproject,Biosample,Run@acc > xml.txt
    

    相关文章

      网友评论

          本文标题:chapter49 SRA命名方案

          本文链接:https://www.haomeiwen.com/subject/zaecjhtx.html