GTF简介
GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注。怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列)。
GTF基因注释文件详解https://blog.csdn.net/sinat_38163598/article/details/72851239
GTF文件功能
指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息。
我的目的
为了探针转换
如何获取
ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/
http://www.gencodegenes.org/releases/current.html
通过R读取GTF文件
果子老师的教程https://www.jianshu.com/p/7f96adec2b0d
最简单的方法
source("https://bioconductor.org/biocLite.R")
biocLite("rtracklayer")
biocLite("SummarizedExperiment")
gtf1 <- rtracklayer::import('Homo_sapiens.GRCh38.90.chr.gtf')
gtf_df <- as.data.frame(gtf1)
test <- gtf_df[1:20,]
View(test)
#选取gene_name,gene_id,gene_biotype
geneid_df <- dplyr::select(gtf_df,c(gene_name,gene_id,gene_biotype))
sort( table( geneid_df$gene_biotype ) )
#剔除基因类型为“protein_coding”的对应关系
geneid_df <- geneid_df[geneid_df[,3] != 'protein_coding',]
length( unique( geneid_df$gene_id ) )
#去重
index <- duplicated(geneid_df[,1])
geneid_df <- geneid_df[! index, ]
网友评论