美文网首页生息分析TCGA
TCGA数据库(GDC Data User's Guide)学习

TCGA数据库(GDC Data User's Guide)学习

作者: 东方不赞 | 来源:发表于2020-04-05 22:57 被阅读0次

    1. Introduction

    GDC(Genomic Data Commons, 基因组数据共享中心)接收、处理和分发来自癌症研究项目的基因组、临床和生物样本数据。

    2. GDC Data Model

    GDC数据模型是组织GDC中所有数据构件的中心方法。GDC网站上提供了数据模型的概述,包括其组件的可视化表示。本节为数据用户、提交者和开发人员提供有关其实现的技术详细信息。

    2.1 Entities实体

    尽管GDC数据模型可能包含一些循环元素,但将其视为由互连实体组成的有向无环图(Directed Acyclic Graph,DAG)会很有帮助。GDC中的每个实体都有一组属性和链接。

    2.2 Properties属性

    属性是与实体关联的键值对。属性不能嵌套,这意味着该值必须是数值、布尔值或字符串,而不能是另一个键值集。属性可以是必需的,也可以是可选的。以下属性在构建GDC数据模型时特别重要:

    • Type
      不可或缺。实体类型包括:project, case, demographic(人口统计), sample, read_group and others.
    • System properties
      系统属性是GDC系统运行和维护中使用的属性。除非在特殊情况下,否则不能修改它们。
    • Unique keys
      唯一键是可用于在GDC中唯一标识实体的属性或属性组合。例如,[project_id,submitter_id]的元组(组合)对于大多数实体都是唯一的键,这意味着虽然submitter_id在GDC中不需要是唯一的,但它在项目中必须是唯一的。

    2.3 Links连接

    连接定义实体之间的关系以及这些关系的多样性(例如,一对一、一对多、多对多)。

    2.4 GDC Data Dictionary

    GDC Data Dictionary(GDC数据字典)根据实体类型确定实体可以具有哪些属性和链接。功能相似的实体类型归入同一个category。例如,实体类型slide_image和submitted_unaligned_reads属于 data_file category,该category包含表示可下载文件的实体。

    2.5 GDC标识码(GDC Identifiers)

    2.5.1 UUID

    创建实体时,会为其分配版本4通用唯一标识符(universally unique identifier, UUID)形式的唯一标识符。UUID唯一标识GDC中的实体,并存储在实体的id属性中。

    2.5.2 Program name,Project Code, and Project ID

    • Program是GDC数据集的最高组织级别。每个Program都分配有一个唯一的program.name属性,且Program.name从不包含连字符。
    • Program中的数据集被组织到Project中,并为每个Project分配一个project.code属性。
    • project_id属性与GDC数据模型中的大多数实体相关联。通过将project.code附加到program.name中生成project_id。

    2.5.3Submitter ID

    该属性可以包含提交者希望用来标识实体的任何字符串(比如一个barcode),这可用于标识提交者记录中的相应实体。GDC要求submitter_id对于项目中的每个实体都是唯一的:[project_id,submitter_id]的元组(组合)是唯一的键。注意:case实体的submitter_id对应于project的dbGaP记录中研究参与者的submitter_subject_id

    2.6 数据获取流程和工具

    可以通过基于用户的基于Web的GDC数据门户访问GDC中的数据,该门户允许浏览,查询和下载数据和元数据。另外,GDC提供了用于下载大量数据的命令行工具,以及用于以编程方式访问GDC功能的应用程序编程接口(API)。

    2.6.1 open和controlled的访问数据

    GDC中的某些数据是开放访问的,这意味着无需身份验证或授权即可访问它。其他数据是受控制的访问,这意味着访问需要dbGaP授权和eRA Commons身份验证。在研究参与者的知情同意的情况下,根据Data Access Policies确定数据集是开放的还是受控的。

    • 开放获取数据通常包括无法单独识别的高级基因组数据,以及大多数临床和所有生物样本数据元素。
    • 受控数据通常包括可单独识别的数据,例如低水平基因组测序数据,种系变体,SNP6基因型数据和某些临床数据元素。特定程序的数据访问委员会授予对受控数据的访问权限。

    2.6.2 数据获取流程

    GDC Data Potal(GDC数据门户)为用户提供基于网络的浏览、查询和下载数据的设施。

    登陆

    • 要下载受控制的访问数据,用户必须登录eRA Commons并可以通过dbGaP访问数据。
    • 访问开放访问数据时无需登录。通过GDC数据门户,用户可以查询数据并将文件添加到购物车中以进行下载。

    下载方式

    • 对于少量的元数据和数据,用户可以直接从GDC数据门户下载数据。
    • 对于大批量数据,用户可以使用GDC Data Transfer Tool(GDC数据传输工具)下载数据,该工具基于客户端,旨在实现高效的数据传输。
    • 要使用数据传输工具一次下载多个文件,用户可以在GDC数据门户中创建和下载manifest(清单)。要下载受控的访问数据,用户可以从GDC数据门户下载token(令牌)。
    • GDC Application Programming Interface (应用程序编程接口, API)也可用于以编程方式下载数据。


      Data access process

    下载方式比较

    GDC Data Portal GDC Data Transfer Tools GDC API
    基于 Web 客户端 程序
    智能搜索高级查询语言
    使用facet预定过滤器搜索数据
    分析数据可视化
    需要dbGaP下载受控数据
    下载小批量数据
    下载大批量数据

    3. Data Security

    略,详见GDC Data Security

    4. file format(文件格式)

    4.1 MAF

    Mutation Annotation Format(MAF)是一个制表符分隔的文本文件,包含来自VCF文件的整合过的突变信息,在project级别生成。

    4.1.1 MAF文件概述

    MAF文件由 Somatic Aggregation Workflow 生成。GDC会在两个权限级别上生成MAF文件:protected.mafsomatic.maf(开放访问)。每个GDC项目调用不同的pipeline就会产生一个MAF文件。通过汇总每个项目的pipeline、整合带有GDC注释的VCF文件以生成MAF文件。带注释的VCF文件经常记录多个转录本上变体,而从VCF(*protected.maf)生成的MAF只记录受最严重影响的那个。

    • 体细胞MAFs(*somatic.maf),也被称为Masked Somatic Mutation文件,通过进一步处理以移除质量较低的和潜在的生殖系变异。对于包含来自tumor-normal等分对的多个组合的变异的肿瘤样本,根据其样本类型在体细胞MAF中仅选择一对。
    • Somatic MAF是公开可用的。

    4.1.2 Somatic MAF File Generation

    以下是从protected.maf到somatic.maf的转换流程:

    • Aliquot Selection等分选择:根据从肿瘤TCGA等分条码中提取的牌号、样本类型、分析物类型和其他特征,为每个肿瘤样本仅选择一个tumor-normal对。

    • 低质量变异过滤和胚系掩蔽

    • 删除以下列:
      – vcf_region
      – vcf_info
      – vcf_format
      – vcf_tumor_gt
      – vcf_normal_gt
      – GDC_Valid_Somatic

    • 设定可能包含生殖系基因型信息的列的值为空:
      – Match_Norm_Seq_Allele1
      – Match_Norm_Seq_Allele2
      – Match_Norm_Validation_Allele1
      – Match_Norm_Validation_Allele2
      – n_ref_count
      – n_alt_count


      Somatic MAF Generation

    4.1.3 Protected MAF File Structure

    下表描述了Protected MAF中的列及其定义。请注意,除了去掉最后六列外,Somatic MAF(open)结构是相同的。

    描述
    1-Hugo_Symbol HUGO Symbol的基因(HUGO symbols总是在全部大写)。“unknow”用于与基因不对应的区域
    2-Enter_Gene_Id Entrez gene ID(整数)。“ 0”用于与基因区域或Ensembl ID不对应的区域
    3-Center 一个或多个基因组测序中心报告了该变异
    4-NCBI_Build 用于比对的参考基因组(GRCh38)
    5-Chromosome 受影响的染色体(chr1)
    6-Start_Position 报告的变体在基因组参考序列上的最低数字位置。变异起始座标
    7-End_Position 报告的变体在基因组参考序列上的最高数字基因组位置。变异结束坐标
    8-Strand 报告的等位基因的基因组链。目前,所有变体都将报告正链:“ +”
    9-Variant_Classification 变异等位基因的翻译作用
    10-Variant_Type 突变类型。TNP(三核苷酸多态性)类似于DNP(二核苷酸多态性),但连续三个核苷酸。ONP(寡核苷酸多态性)类似于TNP,但连续运行四个或更多(SNP,DNP,TNP,ONP,INS,DEL或合并)
    11-Reference_Allele 正链参考等位基因在此位置。包括删除的序列(用于删除)或“-”(用于插入)
    12-Tumor_Seq_Allele1 肿瘤测序(发现)等位基因1的主要数据基因型。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
    13-Tumor_Seq_Allele2 肿瘤测序(发现)等位基因2
    14-dbSNP_RS 来自 dbSNP数据库rs-IDs,如果在使用的任何数据库中均未找到,则为“ novel”;如果没有dbSNP记录,但在其他数据库中找到,则为null
    15-dbSNP_Val_Status dbSNP验证状态报告为以分号分隔的状态列表。如果存在多个,则采用所有rs-ID的并集
    16-Tumor_Sample_Barcode 肿瘤样本的等分条形码
    17-Matched_Norm_Sample_Barcode 匹配的正常样品的等分条形码
    18-Match_Norm_Seq_Allele1 主要数据基因型。匹配的正常测序等位基因1.缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除)
    19-Match_Norm_Seq_Allele2 匹配的正常测序等位基因2
    20-Tumor_Validation_Allele1 来自正交技术的辅助数据。等位基因1的肿瘤基因分型(验证)。缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
    21-Tumor_Validation_Allele2 来自正交技术的辅助数据。等位基因2的肿瘤基因分型(验证)
    22-Match_Norm_Validation_Allele1 来自正交技术的辅助数据。等位基因1的匹配正常基因分型(验证)。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除)
    23-Match_Norm_Validation_Allele2 来自正交技术的辅助数据。等位基因2的匹配正常基因分型(验证)(在体细胞MAF中清除)
    24-Verification_Status 第二次通过是通过独立尝试使用与主要数据源相同的方法得出的。通常为3730 Sanger测序保留
    25-Validation_Status 正交技术的第二遍结果
    26-Mutation_Status 对体细胞,种系,LOH,转录后修饰,未知或无突变的评估。该字段中允许的值受Validation_Status字段中的值约束
    27-Sequencing_Phase TCGA测序阶段(如果适用)。在所考虑的目标发生变化的任何情况下,阶段都应发生变化
    28-Sequencing_Source 用于产生用于测序的分析物的分子分析类型。允许的值是SRA 1.5 library_strategy字段值的子集。此子集与CGHub上使用的子集匹配
    29-Validition_Method 用于验证调用的测定平台
    30-Score 未使用
    31-BAM_File 未使用
    32-Sequencer 用于产生初级序列数据的仪器
    33-Tumor_Sample_UUID GDC等分试样UUID用于肿瘤样品
    34-Matched_Norm_Sample_UUID 匹配正常样品的GDC等分试样UUID
    35-HGVSc HGVS建议格式的变体编码顺序
    36-HGVSp HGVS建议格式的变体蛋白序列。“ p。=”表示蛋白质没有变化
    37-HGVSp_Short 与HGVSp列相同,但使用1个字母的氨基酸代码
    38-Transcript_ID 受变异影响的转录本的ENSEMBL ID
    39-Exon_Number 外显子数(来自总数)
    40-t_depth 肿瘤BAM中该基因座的read深度
    41-t_ref_count read深度支持肿瘤BAM中的参考等位基因
    42-t_alt_count read支持肿瘤BAM中变异等位基因的深度
    43-n_depth 正常BAM中此基因座的read深度
    44-n_ref_count 正常BAM中支持参考等位基因的read深度(在体细胞MAF中清除)
    45-n_alt_count 支持正常BAM中变异等位基因的read深度(在Somatic MAF中清除)
    46-all_effects 以分号分隔的所有可能的变体效果列表,按优先级排序([符号,结果,HGVSp_Short,Transcript_ID,RefSeq,HGVSc,Impact,Canonical,Sift,PolyPhen,Strand])
    47-Allele 用于计算结果的变异等位基因
    48-Gene 受影响基因的稳定整合体ID
    49-Feature 功能的稳定Ensembl ID(transcript, regulatory, motif)
    50-Feature_type 功能类型。当前是Transcript, RegulatoryFeature, MotifFeature (or blank))
    51-One_Consequence 标准转录本的唯一结果 sequence ontology术语
    52-Consequence 此变体的后果类型; sequence ontology项目
    53-cDNA_Position 碱基对在cDNA序列中的相对位置(以分数表示)。如果变体未出现在cDNA中,则分子显示为“-”符号
    54-CDS_position 碱基对在编码序列中的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号
    55-Protein_Position 蛋白质中受影响氨基酸的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号
    56-Amino_acids 仅当变异影响蛋白质编码序列时才给出
    57-Codons 带有大写变体碱基的替代密码子
    58-Existing_variation 现有变化的已知标识符
    59-ALLELE_NUM 输入的等位基因编号;0是参考,1是第一个替代,依此类推。
    60-DISTANCE 从变体到转录本的最短距离
    61-TRANSCRIPT_STRAND 转录本/特征所在的DNA链(1或-1)
    62-SYMBOL 基因符号
    63-SYMBOL_SOURCE 基因符号的来源
    64-HGNC_ID HUGO基因命名委员会的基因标识符(如果适用)
    65-BIOTYPE Transcript的生物型
    66-CANONICAL 标记(YES)表示基于VEP的规范转录本(翻译时间最长)已用于该基因。如果不是,则该值为null
    67-CCDS 此转录本的CCDS标识符(如果适用)
    68-ENSP 受影响的转录本的Ensembl蛋白质标识符
    69-SWISSPROT UniProtKB / Swiss-Prot加入
    70-TREMBL 蛋白质产品的UniProtKB / TrEMBL标识符
    71-UNIPARC 蛋白质产品的UniParc标识符
    72-RefSeq 此转录本的RefSeq标识符
    73-SIFT SIFT预测和/或得分,两者均作为预测(得分)
    74-PolyPhen PolyPhen预测和/或得分
    75-EXON 外显子数(总数中)
    76-INTRON 内含子编号(总数中)
    77-DOMAINS 任何重叠蛋白质结构域的来源和标识符
    78-GMAF 非参考等位基因和现有变异的频率( in 1000 Genomes
    79-AFR_MAF 非洲人群-1000 Genomes中非参考等位基因和现有变异的频率
    80-AMR_MAF 1000 Genomes-美国人群中非参考等位基因和现有变异的频率
    81-ASN_MAF 1000 Genomes-亚洲人群中非参考等位基因和现有变异的频率
    82-EAS_MAF 1000 Genomes-东亚人群的非参考等位基因和现有变异的频率
    83-EUR_MAF 1000 Genomes-欧洲人群中非参考等位基因和现有变异的频率
    84-SAS_MAF 1000 Genomes-南亚人群的非参考等位基因和现有变异的频率
    85-AA_MAF 非参考等位基因和现有变异的频率 NHLBI-ESP非洲裔美国人群
    86-EA_MAF NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
    87-Clin_SIG dbSNP变异体的临床意义
    88-SOMATIC 在Existing_variation(0、1或null)下报告的每个ID的体细胞状态
    89-PUBMED 引用现有变体的出版物的Pubmed ID
    90-MOTIF_NAME 在此位置对齐的转录因子结合图谱的来源和标识符
    91-MOTIF_POS 对齐的TFBP中变化的相对位置
    92-HIGH_INF_POS 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标志(Y,N或null)
    93-MOTIF_SCORE_CHANGE TFBP参考序列和变异序列的基序得分差异
    94-IMPACT 结果类型的影响修饰符
    95-PICK 指示此结果数据块是否由VEP的 pick feature(1或null)
    96-VARIANT_CLASS 序列本体变体类
    97-TSL Transcript support level,基于独立的RNA分析
    98-HGVS_OFFSET 表示此变体的HGVS表示法已移动多少个碱基
    99-PHENO 指示现有变体是否与表型,疾病或性状相关(0、1或null)
    100-MINIMISED 此变量中的等位基因在结果计算之前已转换为最小表示形式(1或null)
    101-ExAC_AF 来自的全球等位基因频率 ExAC
    102-ExAC_AF_Adj 从ExAC调整的全球等位基因频率
    103-ExAC_AF_AFR ExAC的非洲/非裔美国人等位基因频率
    104-ExAC_AF_AMR ExAC的美国等位基因频率
    105-ExAC_AF_EAS ExAC的东亚等位基因频率
    106-ExAC_AF_FIN ExAC的芬兰等位基因频率
    107-ExAC_AF_NFE ExAC的非芬兰欧洲等位基因频率
    108-ExAC_AF_OTH ExAC的其他等位基因频率
    109-ExAC_AF_SAS ExAC的南亚等位基因频率
    110-GENE_PHENO 指示变体映射到的基因是否与表型,疾病或性状相关(0、1或null)
    111-FILTER 从输入VCF复制。这包括由变体调用程序和DNA-Seq管道中使用的其他外部软件直接实现的过滤器。有关其他详细信息,请参见下文。
    112-CONTEXT 每个VCF规格的参考等位基因及其五个侧翼碱基对
    113-src_vcf_id 输入的VCF文件的GDC UUID
    114-tumor_bam_uuid 肿瘤bam文件的GDC UUID
    115-normal_bam_uuid 普通bam文件的GDC UUID
    116-case_id 案件的GDC UUID
    117-GDC_FILTER GDC滤波器普遍应用于所有MAF
    118-COSMIC 重叠的COSMIC变体
    119-MC3_Overlap 指示该区域是否与同一样本对的MC3变体重叠
    120-GDC_Validation_Status GDC实施有效性检查。有关详细信息,请参见下面的注释部分(#5)
    121-GDC_Valid_Somatic 是非题(不适用于躯体MAF)
    122-vcf_region 用冒号分隔的字符串,包含来自VCF文件的CHROM,POS,ID,REF和ALT列(例如,chrZ:20:rs1234:A:T)(不在Somatic MAF中)
    123-vcf_info VCF中的INFO列(不在Somatic MAF中)
    124-vcf_format VCF中的FORMAT列(不在Somatic MAF中)
    125-vcf_tumor_gt VCF的肿瘤样本基因型列(不在Somatic MAF中)
    126-vcf_normal_gt 来自VCF的正常样本基因型列(不在体细胞MAF中)

    4.1.4 使用MAF时参数的注意事项

    • 第4列,NCBI_Build为GRCh38(by default)。
    • 第32列,Sequencer包括使用的测序设备。如果使用不同的测序设备来生成正常和肿瘤数据,则会首先列出正常的测序设备。
    • 第61列,VEP名称“STRAND”改为TRANSCRIPT_STRAND以避免与第8列的“Strand”混淆。
    • 第94列,IMPACT类别由VEP软件定义,不一定反映每个突变的相对生物影响。
    • 第122-125列,vcf_info, vcf_format, vcf_tumor_gt, and vcf_normal_gt是来自VCF文件的相应列。包括它们有助于解析特定的变体信息。
    • 第120列,**GDC_Validation_Status:GDC还收集TCGA验证序列。它将这些与来自同一样本的NGS数据的变体进行比较,并将比较结果填充到“GDC_VALIDATION_STATUS”中。
      • “Valid”:肿瘤验证序列中的替代等位基因与GDC变体调用相同
      • “Invalid”:肿瘤验证序列中的替代等位基因与GDC变体调用都不相同
      • “Inconclusive”:存在两个替代等位基因,且一个匹配、一个不匹配
      • “Unknown”:不存在验证序列
    • 第121列,当GDC_VALIDATION_STATUS为“Valid”,且variant为“Somatic”时,GDC_Valid_Somatic为TRUE,否则FALSE

    4.1.5 FILTER(111列)值的定义

    • oxog:表示此变体被确定为OxoG工件。这是用D-ToxoG计算的.
    • bPcr:表示该变体被确定为PCR模板链上的偏差伪影。这是用DKFZ偏置滤波器计算的。
    • bSeq:表示该变体被确定为正向/反向链上的偏差伪像。这也是用DKFZ偏置滤波器计算的。

    4.1.6 Impact Categories

    • VEP

      • HIGH(H):假定该变体对蛋白质具有高(破坏性)影响,可能导致蛋白质截断、功能丧失或触发无意义介导的衰退
      • MODERATR(M):可能改变蛋白质有效性的非破坏性变体
      • LOW(L):假设大部分无害或不太可能改变蛋白质行为
      • MODIFIER(MO):通常是非编码变体或影响非编码基因的变体,在这种情况下预测困难或没有证据表明影响
    • Polyphen

      • probably damaging(PR):具有很高的可信度,它被认为影响蛋白质功能或结构
      • prossibly damaging(PO):它被认为影响蛋白质功能或结构
      • benign(BE):最有可能缺乏任何表型效应
      • unknown(UN):在某些罕见情况下,缺乏数据不允许PolyPhen进行预测筛选
    • SIFT

      • tolerated:不太可能有表型效应
      • toelrated_low_confidence:比“tolerated”更有可能有表型效应
      • deleterious:可能有表型效应·
      • deleterious_low_confidence:比“deleterious”更不可能有表型效应

    4.2 VCF

    4.2.1 VCF文件介绍

    The GDC DNA-Seq somatic variant-calling pipeline compares a set of matched tumor/normal alignments and produces a VCF file. VCF files report the somatic variants that were detected by each of the four variant callers. Four raw VCFs (Data Type: Raw Simple Somatic Mutation) are produced for each tumor/normal pair of BAMs. Four additional annotated VCFs (Data Type: Annotated Somatic Mutation) are produced by adding biologically relevant information about each variant.

    The GDC VCF file format follows standards of the Variant Call Format (VCF) Version 4.1 Specification. Raw Simple Somatic Mutation VCF files are unannotated, whereas Annotated Somatic Mutation VCF files include extensive, consistent, and pipeline-agnostic annotation of somatic variants.

    4.2.2 VCF文件结构

    Metadata header

    A VCF file starts with lines of metadata that begin with ##. Some key components of this section include:

    • gdcWorkflow: Information on the pipelines that were used by the GDC to generate the VCF file. Annotated VCF files contain two gdcWorkflow lines, one that reports the variant calling process and one that reports the variant annotation process.

    • INDIVIDUAL:

    information about the study participant (

    case
    

    ), including:

    • NAME: Submitter ID (barcode) associated with the participant

    • ID: GDC case UUID

    • SAMPLE:

    sample information, including:

    • ID: NORMAL or TUMOR

    • NAME: Submitter ID (barcode) of the aliquot

    • ALIQUOT_ID: GDC aliquot UUID

    • BAM_ID: The UUID for the BAM file used to produce the VCF

    • INFO:

    Format of

    additional information

    fields

    • NOTE: GDC Annotated VCFs may contain multiple INFO lines. The last INFO line contains information about annotation fields generated by the Somatic Annotation Workflow (see GDC INFO Fields below).

    • FILTER: Description of filters that have been applied to the variants

    • FORMAT: Description of genotype fields

    • reference: The reference genome used to generate the VCF file (GRCh38.d1.vd1.fa)

    • contig:

    A list of IDs for the contiguous DNA sequences that appear in the reference genome used to produce VCF files

    • NOTE: Annotated VCFs include contig information for autosomes, sex chromosomes, and mitochondrial DNA. Unplaced, unlocalized, human decoy, and viral genome sequences are not included.

    • VEP: the VEP command used by the Somatic Annotation Workflow to generate the annotated VCF file.

    Column Header Line

    Each variant is represented by a row in the VCF file. Below each of the columns are described:

    1. CHROM: The chromosome on which the variant is located
    2. POS: The position of the variant on the chromosome. Refers to the first position if the variant includes more than one base
    3. ID: A unique identifier for the variant; usually a dbSNP rs number if applicable
    4. REF: The base(s) exhibited by the reference genome at the variant's position
    5. ALT: The alternate allele(s), comma-separated if there are more than one
    6. QUAL: Not populated
    7. FILTER: The names of the filters that have flagged this variant. The types of filters used will depend on the variant caller used.
    8. INFO: Additional information about the variant. This includes the annotation applied by the VEP.
    9. FORMAT: The format of the sample genotype data in the next two columns. This includes descriptions of the colon-separated values.
    10. NORMAL: Colon-separated values that describe the normal sample
    11. TUMOR: Colon-separated values that describe the tumor sample

    See Variant Call Format (VCF) Version 4.1 Specification for details.

    4.2.3 GDC INFO fields

    Field Description 中文描述
    Allele The variant allele used to calculate the consequence 用于计算结果的变异等位基因
    Consequence Consequence type of this variant 此变体的后果类型
    IMPACT The impact modifier for the consequence type 结果类型的影响修饰符
    SYMBOL The HUGO gene symbol HUGO基因符号
    Gene Ensembl stable ID of the affected gene 整合受影响基因的稳定ID
    Feature_type Type of feature. Currently one of Transcript, RegulatoryFeature, MotifFeature. 功能类型。目前是文字记录,监管功能,MotifFeature之一。
    Feature Ensembl stable ID of the feature 整合功能的稳定ID
    BIOTYPE The type of transcript or regulatory feature (e.g. protein_coding) 转录本或调控功能的类型(例如,protein_coding)
    EXON Exon number (out of total exons) 外显子数(外显子总数)
    INTRON Intron number (out of total introns) 内含子数量(在所有内含子中)
    HGVSc The HGVS coding sequence name HGVS编码序列名称
    HGVSp The HGVS protein sequence name HGVS蛋白序列名称
    cDNA_position Relative position of base pair in cDNA sequence 碱基对在cDNA序列中的相对位置
    CDS_position Relative position of base pair in coding sequence 碱基对在编码序列中的相对位置
    Protein_position Relative position of the affected amino acid in protein 蛋白质中受影响氨基酸的相对位置
    Amino_acids Change in amino acids (only given if the variant affects the protein-coding sequence) 氨基酸变化(仅在变体影响蛋白质编码序列时给出)
    Codon The affected codons with the variant base in upper case 带有大写变体碱基的受影响密码子
    Existing_variation Known identifier of existing variant; usually a dbSNP rs number if applicable 现有变体的已知标识符;如果适用,通常是一个dbSNP rs号
    ALLELE_NUM Allele number from input; 0 is reference, 1 is first alternate, etc. 输入的等位基因编号;0是参考,1是第一个替代,依此类推。
    DISTANCE Shortest distance from variant to transcript 变体到转录本的最短距离
    STRAND The DNA strand (1 or -1) on which the transcript/feature lies 转录本/特征所在的DNA链(1或-1)
    FLAGS Transcript quality flags 成绩单质量标志
    VARIANT_CLASS Sequence Ontology variant class 序列本体变体类
    SYMBOL_SOURCE The source of the gene symbol 基因符号的来源
    HGNC_ID HGNC gene ID HGNC基因ID
    CANONICAL A flag indicating if the transcript is denoted as the canonical transcript for this gene 一个标志,指示该转录本是否被表示为该基因的规范转录本
    TSL Transcript support level 笔录支持级别
    APPRIS APPRIS isoform annotation APPRIS同种型注释
    CCDS The CCDS identifer for this transcript, where applicable 适用于此笔录的CCDS标识符
    ENSP The Ensembl protein identifier of the affected transcript 受影响的转录本的Ensembl蛋白质标识符
    SWISSPROT UniProtKB/Swiss-Prot identifier of protein product 蛋白产品的UniProtKB / Swiss-Prot标识符
    TREMBL UniProtKB/TrEMBL identifier of protein product 蛋白质产品的UniProtKB / TrEMBL标识符
    UNIPARC UniParc identifier of protein product 蛋白质产品的UniParc标识符
    RefSeq RefSeq gene ID RefSeq基因ID
    GENE_PHENO Indicates if the gene is associated with a phenotype, disease or trait 指示基因是否与表型,疾病或性状相关
    SIFT The SIFT prediction and/or score, with both given as prediction (score) SIFT预测和/或分数,两者均作为预测(分数)
    PolyPhen The PolyPhen prediction and/or score PolyPhen预测和/或分数
    DOMAINS The source and identifier of any overlapping protein domains 任何重叠蛋白质结构域的来源和标识符
    HGVS_OFFSET Indicates by how many bases the HGVS notations for this variant have been shifted 表示此变体的HGVS表示法已移动多少个碱基
    GMAF Non-reference allele and frequency of existing variant in 1000 Genomes 1000个基因组中现有基因的非参考等位基因和频率
    AFR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined African population 非洲人口总数1000个基因组中非参考等位基因和现有变异的频率
    AMR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined American population 1000个基因组合并的美国人群中非参考等位基因和现有变异的频率
    EAS_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined East Asian population 1000个基因组合并的东亚人群的非参考等位基因和现有变异的频率
    EUR_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined European population 欧洲人群中1000个基因组中非参考等位基因和现有变异的频率
    SAS_MAF Non-reference allele and frequency of existing variant in 1000 Genomes combined South Asian population 1000个基因组合并的南亚人群的非参考等位基因和现有变异的频率
    AA_MAF Non-reference allele and frequency of existing variant in NHLBI-ESP African American population NHLBI-ESP非裔美国人人群中非参考等位基因和现有变异的频率
    EA_MAF Non-reference allele and frequency of existing variant in NHLBI-ESP European American population NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
    ExAC_MAF Frequency of existing variant in ExAC combined population ExAC合并人群中现有变体的频率
    ExAC_Adj_MAF Adjusted frequency of existing variant in ExAC combined population ExAC合并人群中现有变体的调整频率
    ExAC_AFR_MAF Frequency of existing variant in ExAC African/American population ExAC非洲/美国人口中现有变体的频率
    ExAC_AMR_MAF Frequency of existing variant in ExAC American population ExAC美国人口中现有变体的频率
    ExAC_EAS_MAF Frequency of existing variant in ExAC East Asian population ExAC东亚人口中现有变体的频率
    ExAC_FIN_MAF Frequency of existing variant in ExAC Finnish population ExAC芬兰人口中现有变体的频率
    ExAC_NFE_MAF Frequency of existing variant in ExAC Non-Finnish European population ExAC非芬兰欧洲人口中现有变体的频率
    ExAC_OTH_MAF Frequency of existing variant in ExAC combined other combined populations ExAC中现有变体的出现频率加上其他合并人群
    ExAC_SAS_MAF Frequency of existing variant in ExAC South Asian population ExAC南亚人口中现有变体的频率
    CLIN_SIG Clinical significance of variant from dbSNP dbSNP变异体的临床意义
    SOMATIC Somatic status of existing variant(s) 现有变体的体细胞状态
    PHENO Indicates if existing variant is associated with a phenotype, disease or trait 指示现有变体是否与表型,疾病或性状相关
    PUBMED Pubmed ID(s) of publications that cite existing variant 引用现有变体的出版物的公开ID
    MOTIF_NAME The source and identifier of a transcription factor binding profile aligned at this position 在此位置对齐的转录因子结合图谱的来源和标识符
    MOTIF_POS The relative position of the variation in the aligned TFBP 对齐的TFBP中变化的相对位置
    HIGH_INF_POS A flag indicating if the variant falls in a high information position of a transcription factor binding profile (TFBP) 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标记
    MOTIF_SCORE_CHANGE The difference in motif score of the reference and variant sequences for the TFBP TFBP参考序列和变异序列的基序得分差异
    ENTREZ Entrez ID 输入ID
    EVIDENCE Evidence that the variant exists 该变体存在的证据

    ==待续==

    Bioinfomatics Pipeline

    DNA-Seq Analysis

    mRNA Analysis

    miRNA Analysis

    Copy Number Variation

    Methylation Liftover

    相关文章

      网友评论

        本文标题:TCGA数据库(GDC Data User's Guide)学习

        本文链接:https://www.haomeiwen.com/subject/octpphtx.html