简介
条码(Barcode)是TCGA纳入的每一个标本的专有标识符。
条码结构
条码结构 条码各部分的含义
编制流程
理解条码的编制流程(见下图),有助于我们更好的解读条码。
Barcode编制流程图简而言之,编码机构BRS(Biospeciman Core Resource)根据来源机构(Tissue Source Site,TSS)和捐献者(Participation),给予编号TCGA-02 和 TCGA-02-0001,根据组织类型(Sample)如癌组织、正常组织等,编为TCGA-02-0001-01(01-09为癌组织,10-14为正常组织,组织类型编码详见https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes)。同一种组织的标本又会被分装进不同容器(Vial),同一容器内又可分为多个小份(Portion),进一步编为 TCGA-02-0001-01B和TCGA-02-0001-01B-02。样品送至检测机构后,制备成不同的分析物(Analyte)检测,用不同字母编码,例如D表示DNA,R表示RNA。同一份分析物在检测过程中被加到检测板的某一加样孔中,分别编号 TCGA-02-0001-01B-02D-0182和TCGA-02-0001-01B-02D-0182-06。
组织类型编码分析物编码
应用
以上大致介绍了TCGA条码包含的信息。其中我们最为关注实际上是来自不同捐献者的组织类型,往往决定分组,例如根据捐献者种族分为亚裔和非亚裔,根据组织类型分为肿瘤组、正常对照组。
代码举例:
num<-as.numeric(substring(id,14,15)) #截取字符串后转为数字
group_list=ifelse(num%in%1:9,”Tumor”,”Normal”) #ifelse实现分组
网友评论