任务

统计fa ID信息，并打开看看fa格式
探究gtf注释信息，
第一：用grep awk 统计自己需求的内容，如提取各数据库的ID信息到一个文本，
第二：比较gencode 与 gatk ncbi gtf注释信息的差异；第三统计一下 gtf内gene、转录本、其他类型（如假基因，lnRNA）等信息的个数

操作记录:

gtf格式第九行非常精彩，包含了gene的各种名字，包括重要的有:entrID，gene symble name，bio_type，gene_ID等！
2.gtf默认是\t分隔的，所以第一次操作必须要用cut分隔，不然有一些数据会出现不整齐的情况。

####第一次分隔不要用awk错误例子示范
zless -NS Homo_sapiens.GRCh38.86.gtf.gz | awk -F ';'  '{print$3,$4,$5,$6,$7}'|awk -F '"' '{print$2,$8}'|awk '/^ENST/{print$0}'|cut -f2|sort|uniq |wc -l

####正确的方法：
less -S /home/vip25/database/NCBI/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|head -n 50|cut -f 9
########gtf文档的第九列内容很丰富包括了各种基因的名字
less -S /home/vip25/database/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|awk '$3=="gene"{print $0}'|cut -f 9|cut -d ';' -f 1,3,5|cut -d ' ' -f 2,4,6|less -S

数据下载

下载参考基因组ensemble、UCSC、NCBI、Genecode的hg38参考基因组和gtf注释文件

google：ensemble ftp hg38
ftp://ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz

NSBI

第一种方法

第二种方法

下载地址
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

UCSC：