美文网首页
HG-U95注释平台系列

HG-U95注释平台系列

作者: 信你个鬼 | 来源:发表于2020-07-29 00:43 被阅读0次

    作者:jzhang
    前几天收到一个网有挺有意思的题问,如下:

    image-20200728235015903.png

    出于好奇,我对这个GPL91,92,93,94,95平台进行了查看。根据上面提供的GSE编号,我找到了这个数据集合,确实是HG-U95。


    image-20200729000956419.png

    平台信息文件:


    image-20200729002022940.png

    然后看到了官网介绍:

    The Human Genome U95 (HG-U95) Set, consisting of five GeneChip arrays, contains almost 63,000 probe sets interrogating approximately 54,000 clusters derived from the UniGene database (Build 95)。

    意思是这个平台总共有63000个探针,使用了5个芯片。随后我去affy官网下载了这六个芯片平台的注释文件。http://www.affymetrix.com/support/technical/byproduct.affx?product=hgu95
    下载了这最新版的六个文件:

    image-20200729002345487.png

    使用R语言进行探索

    rm(list=ls())
    options(stringsAsFactors = F)
    ​
    # 读取A平台
    hg_u95a <- read.table("../annot/HG_U95A.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
    colnames(hg_u95a)
    hg_u95a <- hg_u95a[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
    head(hg_u95a)
    ​
    # 读取A v2平台
    hg_u95av2 <- read.table("../annot/HG_U95Av2.na36.annot.csv",header = T,sep = ",",comment.char = "#",check.names = F)
    colnames(hg_u95av2)
    hg_u95av2 <- hg_u95av2[,c("Probe Set ID","Gene Symbol","Entrez Gene","Ensembl")]
    head(hg_u95av2)</pre>
    

    我们可以看到这两个平台就是一个升级版本的关系,他们的探针分别有12626(a)和12625个,交集是12600个。

    library(VennDiagram)
    data <- list(hg_u95a[,1],hg_u95av2[,1])
    names(data) <- c("hg_u95a","hg_u95av2")
    ​
    #设置颜色
    col <- c("#0099CC","#FF6666")
    ​
    venn.diagram(data,
     filename="venn.png", #输出的图片名字
     imagetype="png",     #输出的图片类型
     lwd=1,               #圈线粗度
     lty=1,               #圈线类型
     col=col,             #圈线的颜色
     fill=col,            #填充圈的颜色
     cat.col=col,         #每个group名字的颜色
     cat.cex = 1.6,       #每个group名字的大小
     rotation.degree = 0, #旋转角度
     cex=1,             #里面交集字的大小
     alpha = 0.5,         #透明度 
     reverse=TRUE,
     width=4000,          #图片的宽度
     height = 4000,       #图片的高度
     resolution =600,     #图片的分辨率
     margin=0.2)          #图片距离画布的边缘,一般如果画出的图片有显示不完全就可以设置这个
    
    image-20200729003006645.png

    我们再来看一下abcde五个平台注释到的gene symbol的关系:

    #变成list对象,进行绘图
    library(VennDiagram)
    data <- list(hg_u95a[,2],hg_u95b[,2],hg_u95c[,2],hg_u95d[,2],hg_u95e[,2])
    ​
    names(data) <- c("hg_u95a","hg_u95b","hg_u95c","hg_u95d","hg_u95e")
    ​
    #设置颜色
    col <- c("#0099CC","#FF6666","#FFCC99","#0099CC","red")
    ​
    venn.diagram(data,
     filename="venn.png", #输出的图片名字
     imagetype="png",     #输出的图片类型
     lwd=1,               #圈线粗度
     lty=1,               #圈线类型
     col=col,             #圈线的颜色
     fill=col,            #填充圈的颜色
     cat.col=col,         #每个group名字的颜色
     cat.cex = 1.6,       #每个group名字的大小
     rotation.degree = 0, #旋转角度
     cex=1,             #里面交集字的大小
     alpha = 0.5,         #透明度 
     reverse=TRUE,
     width=4000,          #图片的宽度
     height = 4000,       #图片的高度
     resolution =600,     #图片的分辨率
     margin=0.2)          #图片距离画布的边缘,一般如果画出的图片有显示不完全就可以设置这个
    

    也就是说这五个芯片不是重复的芯片,是6万多个探针分布在了五个芯片里面进行测序了。从探针ID的编号也是可以看出来的从1开始编号到6。


    image-20200729003159710.png

    芯片a系列:

    image-20200729003419946.png

    芯片e系列:

    image-20200729003457689.png

    最后总结:

    应该就是这个HG-U95平台总共有6万多个探针,使用了五个芯片测序,可能由于当时技术的原因导致一张芯片的通量没有那么高,只能测12000左右的序列,这个芯片已经很老了。根据每个平台的探针编号是连着的也能推测出这个,比如探针ID是用1开头到6开头的编号。

    五个芯片的数据合并即取并集起来做分析就可以了。

    相关文章

      网友评论

          本文标题:HG-U95注释平台系列

          本文链接:https://www.haomeiwen.com/subject/ksycrktx.html