美文网首页生物信息学
四、基因ID转换

四、基因ID转换

作者: 白米饭睡不醒 | 来源:发表于2022-01-20 23:15 被阅读0次
    #去掉数据框中基因id的小数点以及小数点的后两位
    library(stringr)
    rownames(exp) = str_split(rownames(exp),"\\.",simplify = T)[,1]
    #会损失部分基因
    

    01.需求

    TCGA的RNA-seq数据使用的geneid是ensembl id,两个常见的需求:

    1.差异分析结果中每个ensembl id对应的symbol和类型(mRNA/lncRNA或其它)

    2.将行名从ensembl id 转换为symbol

    02.思路

    1.找到TCGA数据对应的参考基因组注释版本。

    2.下载该版本的参考基因组注释文件,提取ensembl id 与symbol的对应关系及每个基因的gene type信息。

    3.可以将symbol和gene type 用merge添加到差异分析结果中,也可以在差异分析前先转换矩阵的行名。

    03.动起来

    1.找参考基因组版本

    gdc首页的support → about the data 中的 GDC Reference Files → 可以看到使用的参考基因组版本是genecode的v22。(版本很多,这个是14年的版本了)

    2.找区分类型的列

    在gtf文件里并不是直接分出了lncRNA,需要找gtf文件里对biotype的说明,不看不知道,一看发现这是一个很长的表格。

    其中对lncRNA的说明是:

    Generic long non-coding RNA biotype that replaced the following biotypes: 3prime_overlapping_ncRNA, antisense, bidirectional_promoter_lncRNA, lincRNA, macro_lncRNA, non_coding, processed_transcript, sense_intronic and sense_overlapping.

    所以需要将genetype里这些类型对应的行挑出来,就是lncRNA了。 然后与表达矩阵行名进行匹配替换,就可以分别得到mRNA和lncRNA的矩阵了。

    options(stringsAsFactors = F)
    if(!file.exists("gtf_gene.Rdata")){
      #step1:读取并探索gtf文件----
      #BiocManager::install("rtracklayer")
      library(rtracklayer)
      gtf = rtracklayer::import("gencode.v22.annotation.gtf")
      class(gtf)
      gtf = as.data.frame(gtf);dim(gtf)#转换成数据框格式
      colnames(gtf)
      table(gtf$type)
      #step2:先筛选出gene对应的行
      gtf_gene = gtf[gtf$type=="gene",]
      save(gtf_gene,file = "gtf_gene.Rdata")
    }
    load("gtf_gene.Rdata")
    load("TCGA-CHOL_DEG.Rdata")
    deg = DESeq2_DEG
    table(rownames(deg) %in% gtf_gene$gene_id)#看所有表达矩阵中的行名是不是都存在于gtf中
    #> 
    #> FALSE  TRUE 
    #>     3 30345
    
    an = gtf_gene[,c("gene_name","gene_id","gene_type")]
    deg = merge(deg,an,by.x = "row.names",by.y = "gene_id")#可直接根据行名来索引
    
    # mRNA和lncRNA总共有多少个?
    
    lnc = c("3prime_overlapping_ncRNA", "antisense", "bidirectional_promoter_lncRNA", "lincRNA", "macro_lncRNA", "non_coding", "processed_transcript", "sense_intronic" , "sense_overlapping")
    
    k1 = gtf_gene$gene_type %in% lnc;table(k1)#lncRNA数量
    #> k1
    #> FALSE  TRUE 
    #> 45657 14826
    k2 = gtf_gene$gene_type == "protein_coding";table(k2)#mRNA数量
    #> k2
    #> FALSE  TRUE 
    #> 40669 19814
    
    # deg中有多少mRNA和lncRNA?
    
    k3 = deg$gene_type %in% lnc;table(k3)#表达数据中的lncRNA数量
    #> k3
    #> FALSE  TRUE 
    #> 22844  7501
    k4 = deg$gene_type =="protein_coding";table(k4)#表达数据中的mRNA数量
    #> k4
    #> FALSE  TRUE 
    #> 12881 17464
    
    # 差异的 mRNA和lncRNA 各有多少
    k5 = deg$change !="NOT"
    table(k3&k5)
    #> 
    #> FALSE  TRUE 
    #> 29949   396
    table(k4&k5)
    #> 
    #> FALSE  TRUE 
    #> 29261  1084
    

    表达矩阵的行名id转换

    做差异分析之前先转换ID

    rm(list = ls())
    load("TCGA-CHOL_gdc.Rdata")
    load("gtf_gene.Rdata")
    an = gtf_gene[,c("gene_name","gene_id","gene_type")]
    exp = exp[rownames(exp) %in% an$gene_id,]#match要求内容相同顺序不同,第一个元素中不可以有后面不存在的东西,后面可以有前面没有的东西
    an = an[match(rownames(exp),an$gene_id),]#以rownames(exp)为标准调整an
    identical(an$gene_id,rownames(exp))
    #> [1] TRUE
    
    #给矩阵换行名时,行名不能有重复,但是这里gene_name中有重复
    k = !duplicated(an$gene_name);table(k)#两个对应数据取子集
    #> k
    #> FALSE  TRUE 
    #>   193 30152
    
    an = an[k,]#gene_name只保留一个
    exp = exp[k,]#exp只保留一个
    
    rownames(exp) = an$gene_name
    
    # 最终得到的结果
    exp[1:2,1:2]
    #>        TCGA-W5-AA36-01A-11R-A41I-07 TCGA-W5-AA2H-01A-31R-A41I-07
    #> TSPAN6                         2504                          226
    #> DPM1                           1272                         1146
    
    save(exp,file = paste0(cancer_type,"_symbol_exp.Rdata"))
    

    *全部为自生信技能树课堂笔记

    相关文章

      网友评论

        本文标题:四、基因ID转换

        本文链接:https://www.haomeiwen.com/subject/kpbshrtx.html