转录组直播课学习：第三天

作者: 焱黎 | 来源:发表于2020-03-30 18:39 被阅读0次

转录组直播课学习：第三天
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）
转录组学习一（软件安装）
生信菜鸟团-专题学习目录
转录组学习

下载参考基因组
所需的三个文件：1.基因组序列(genome.fa); 2.基因注释文件(genes.gtf)；3.蛋白序列(proteins.fasta)(模式物种就不需要了蛋白序列了，这是进行功能注释使用的)

下载人的基因组序列fasta文件

下载人的参考基因组，网站Enzembel
下载目录
点击release-99，进入该文件夹： release-99文件夹
点击homo_sapiens/，进入该文件夹： homo_sapiens文件夹内容
点击dna,进入该文件夹： dna文件夹

然后右键-复制链接地址, 在服务器上用wget命令下载（若wget下载较慢，也可以将下载链接拷到迅雷中进行下载）：

$ wget http://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

下载人的gtf/gff文件

在release-99/文件夹中,选择gtf文件(若是有gtf文件的优先下载gtf文件)： release-99.png
进入gtf文件夹后，找homo_sapiens: gtf
进入homo_sapiens文件夹后： homo_sapiens
右键-复制链接地址，然后在服务器命令行中，利用wget下载：

$ wget http://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.chr.gtf.gz

植物的参考基因组可以去JGI网站下载。

练习文章的参考基因是需要在github上下载：

$ git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git
$ cd Genome-data-of-Hanfu-apple
$ ls
HFTH1.gene.gff3.gz  HFTH1.gene.pep.fa.gz  HFTH1.genome.fa/
$ cd HFTH1.genome.fa/
$ ls 
Chr00.fa.gz  Chr01.fa.gz  Chr02.fa.gz  Chr03.fa.gz  Chr04.fa.gz  Chr05.fa.gz  Chr06.fa.gz  Chr07.fa.gz  Chr08.fa.gz  Chr09.fa.gz  Chr10.fa.gz  Chr11.fa.gz
Chr12.fa.gz  Chr13.fa.gz  Chr14.fa.gz  Chr15.fa.gz  Chr16.fa.gz  Chr17.fa.gz
$ gunzip *.gz
$ cat *.fa > genome.fa # 利用cat命令将多条染色体序列合并到genome.fa中
$ cd ..
$ gunzip HFTH1.gene.gff3.gz
$ less -S HFTH1.gene.gff3
$ gffread -T -o genes.gtf HFTH1.gene.gff3 # 利用gffread命令将gff文件转换成gtf文件
$ awk '$3=="gene"' HFTH1.gene.gff3 | wc
44677 402093 2335161 # 总共有44677个gene
$ awk '$3=="mRNA"' HFTH1.gene.gff3 | wc
44677 40293 3139347 # 总共44677个mRNA, 与gene数目相同，说明只研究到了mRNA水平
$ gunzip HFTH1.gene.pep.fa.gz # 解压蛋白质文件
$ awk -F '-' '{print $1}' HFTH1.gene.pep.fa > proteins.fasta # 由于下载的蛋白质序列不是以基因名开头的，而是mRNA名开头的，所以需要提取出来