任务
- 统计fa ID信息,并打开看看fa格式
- 探究gtf注释信息,
第一:用grep awk 统计自己需求的内容,如提取各数据库的ID信息 到一个文本,
第二:比较gencode 与 gatk ncbi gtf注释信息的差异;第三统计一下 gtf内gene、转录本、其他类型(如假基因,lnRNA)等信息的个数
操作记录:
- gtf格式第九行非常精彩,包含了gene的各种名字,包括重要的有:entrID,gene symble name,bio_type,gene_ID等!
2.gtf默认是\t分隔的,所以第一次操作必须要用cut分隔,不然有一些数据会出现不整齐的情况。
####第一次分隔不要用awk错误例子示范
zless -NS Homo_sapiens.GRCh38.86.gtf.gz | awk -F ';' '{print$3,$4,$5,$6,$7}'|awk -F '"' '{print$2,$8}'|awk '/^ENST/{print$0}'|cut -f2|sort|uniq |wc -l
####正确的方法:
less -S /home/vip25/database/NCBI/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|head -n 50|cut -f 9
########gtf文档的第九列内容很丰富包括了各种基因的名字
less -S /home/vip25/database/Homo_sapiens.GRCh38.86.gtf.gz|grep -v '^#'|awk '$3=="gene"{print $0}'|cut -f 9|cut -d ';' -f 1,3,5|cut -d ' ' -f 2,4,6|less -S
数据下载
下载参考基因组ensemble、UCSC、NCBI、Genecode的hg38参考基因组和gtf注释文件
google:ensemble ftp hg38
ftp://ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz
NSBI


下载地址
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz
UCSC:


ensemble ftp

genecode感觉很精彩呀

网友评论