下载参考基因组
所需的三个文件:1.基因组序列(genome.fa); 2.基因注释文件(genes.gtf);3.蛋白序列(proteins.fasta)(模式物种就不需要了蛋白序列了,这是进行功能注释使用的)
下载人的基因组序列fasta文件
- 下载人的参考基因组,网站Enzembel
下载目录
-
点击release-99,进入该文件夹:
release-99文件夹
-
点击homo_sapiens/,进入该文件夹:
homo_sapiens文件夹内容
-
点击dna,进入该文件夹:
dna文件夹
然后右键-复制链接地址, 在服务器上用wget命令下载(若wget下载较慢,也可以将下载链接拷到迅雷中进行下载):
$ wget http://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
下载人的gtf/gff文件
-
在release-99/文件夹中,选择gtf文件(若是有gtf文件的优先下载gtf文件):
release-99.png
-
进入gtf文件夹后,找homo_sapiens:
gtf
-
进入homo_sapiens文件夹后:
homo_sapiens
右键-复制链接地址,然后在服务器命令行中,利用wget下载:
$ wget http://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.chr.gtf.gz
- 植物的参考基因组可以去JGI网站下载。
练习文章的参考基因是需要在github上下载:
$ git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git
$ cd Genome-data-of-Hanfu-apple
$ ls
HFTH1.gene.gff3.gz HFTH1.gene.pep.fa.gz HFTH1.genome.fa/
$ cd HFTH1.genome.fa/
$ ls
Chr00.fa.gz Chr01.fa.gz Chr02.fa.gz Chr03.fa.gz Chr04.fa.gz Chr05.fa.gz Chr06.fa.gz Chr07.fa.gz Chr08.fa.gz Chr09.fa.gz Chr10.fa.gz Chr11.fa.gz
Chr12.fa.gz Chr13.fa.gz Chr14.fa.gz Chr15.fa.gz Chr16.fa.gz Chr17.fa.gz
$ gunzip *.gz
$ cat *.fa > genome.fa # 利用cat命令将多条染色体序列合并到genome.fa中
$ cd ..
$ gunzip HFTH1.gene.gff3.gz
$ less -S HFTH1.gene.gff3
$ gffread -T -o genes.gtf HFTH1.gene.gff3 # 利用gffread命令将gff文件转换成gtf文件
$ awk '$3=="gene"' HFTH1.gene.gff3 | wc
44677 402093 2335161 # 总共有44677个gene
$ awk '$3=="mRNA"' HFTH1.gene.gff3 | wc
44677 40293 3139347 # 总共44677个mRNA, 与gene数目相同,说明只研究到了mRNA水平
$ gunzip HFTH1.gene.pep.fa.gz # 解压蛋白质文件
$ awk -F '-' '{print $1}' HFTH1.gene.pep.fa > proteins.fasta # 由于下载的蛋白质序列不是以基因名开头的,而是mRNA名开头的,所以需要提取出来
网友评论