美文网首页
参考基因组的下载

参考基因组的下载

作者: 路人里的路人 | 来源:发表于2023-05-06 17:38 被阅读0次

    下载参考基因组的网站/方法

    Ensembl:https://ftp.ensembl.org/pub/
    Ensemblgenome:http://ftp.ensemblgenomes.org/pub/
    NCBI:https://ftp.ncbi.nlm.nih.gov/genomes/
    UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath
    JGI:
    论文中提供的地址:论文中也会提供数据的储存位置,找到对应的储存网站即可

    需要下载的数据

    基因组序列(genome.fasta)
    基因注释(genes.gtf)
    蛋白序列(proteins.fasta)

    下载步骤

    1.以Ensembl中人(homo_sapiens)的数据为例
    打开ftp网址\Rightarrow找到最新版本的release版本(release_xxx)\Rightarrowfasta/\Rightarrowhomo_sapiens\Rightarrowdna/*.primary_assembly版本\Rightarrow服务器wget命令下载\Rightarrow返回release_xxx\Rightarrowgtf/\Rightarrowhomo_sapiens/\Rightarrow.chr.gtf.gz/.gtf.gz\Rightarrow服务器wget命令下载 \Rightarrow返回release_xxx\Rightarrowfasta/\Rightarrowhomo_sapiens/\Rightarrowpep/\RightarrowHomo_sapiens.GRCh38.pep.all.fa.gz\Rightarrow服务器wget命令下载
    其实大部分时候参考基因组的信息都是要从其他地方下载的,查找该物种最新的基因组文章,里面一般会交代他们把基因组数据存放在哪里了。

    基因组序列(genome.fasta)处理

    如果下载的基因组文件已经将基因分配到不同的染色体上,则需要将他们再重新组装到一个文件中,具体操作为:

    gunzip *.fq.gz
    #解压以fq.gz结尾的染色体文件
    cat *.fa > genome.fa
    #将所有解压的染色体拼接成一个文件,用于后续分析
    fold -w 60 genome.fa > genome_out.fa
    #fold命令将每行的长序列转换成每行60个碱基,因为后续的分析中某些软件不支持单行的过长序列
    

    基因注释文件(genes.gff3/gtf)处理

    guzip gff3.fq.gz
    #解压gff3压缩文件
    less -S gff3.fa
    #查看gff3的文件内容
    
    awk '$3=="gene"' HFTH1.gene.gff3 | wc
    

    使用awk命令对gff3文件中的基因数进行统计,也可将gene换成mRNA,观察两者的数目是否一致,一致则说明该物种只研究到转录组水平,若mRNA数多余gene数,则说明研究到了可变剪切水平。
    将gff3文件转换成gtf文件

    conda create -n gffread
    conda activate gffread
    conda install -c gffread
    gffread -T -o genes.gtf genes.gffs
    

    以上代码展示了安装转换软件gffread的过程并提供了gff3文件转换为gtf文件命令,gtf文件中包含的信息有转录本、外显子、CDS及转录本隶属的基因关系这几行。

    蛋白序列文件的处理(proteins.fasta)

    若物种没有功能注释文件则需要使用proteins.fasta生成一个功能注释文件。若蛋白序列抬头不是基因的ID则还需要想办法将其处理成抬头为基因ID,参考命令如下:

    awk -F '-' '{print $1}' HFTH1.gene.pep.fa > proteins.fasta
    #使用awk命令将分隔符换为-,打印第一列并将结果输入到proteins.fasta中
    

    我自己找的蛋白序列文件的抬头是这样的:>KAF5929869.1 hypothetical protein HYC85_000052, partial [Camellia sinensis],通过替换功能将其变成了>KAF5929869.1_HYC85_000052。再使用以下命令找到每一行中匹配KAF..1*正则表达式的部分,并将其替换为空。

    sed -i 's/KAF.*\.1//g' GCA_013676235.1_HZAU_G240_1.0_protein.faa
    

    相关文章

      网友评论

          本文标题:参考基因组的下载

          本文链接:https://www.haomeiwen.com/subject/qpdfsdtx.html