GTF文件读取

作者: 蓝天_乎乎 | 来源:发表于2018-10-15 16:29 被阅读24次

GTF简介

GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注。怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列)。
GTF基因注释文件详解https://blog.csdn.net/sinat_38163598/article/details/72851239

GTF文件功能

指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息。

我的目的

为了探针转换

如何获取

ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/
http://www.gencodegenes.org/releases/current.html

通过R读取GTF文件

果子老师的教程https://www.jianshu.com/p/7f96adec2b0d
最简单的方法

source("https://bioconductor.org/biocLite.R")
biocLite("rtracklayer")
biocLite("SummarizedExperiment")
gtf1 <- rtracklayer::import('Homo_sapiens.GRCh38.90.chr.gtf')

gtf_df <- as.data.frame(gtf1)
test <- gtf_df[1:20,]
View(test)
#选取gene_name,gene_id,gene_biotype
geneid_df <- dplyr::select(gtf_df,c(gene_name,gene_id,gene_biotype))
sort( table( geneid_df$gene_biotype ) )
#剔除基因类型为“protein_coding”的对应关系
geneid_df <- geneid_df[geneid_df[,3] != 'protein_coding',]  
length( unique( geneid_df$gene_id ) )
#去重
index <- duplicated(geneid_df[,1])
geneid_df <- geneid_df[! index, ]



相关文章

网友评论

    本文标题:GTF文件读取

    本文链接:https://www.haomeiwen.com/subject/wvefzftx.html