TCGA数据库(GDC Data User's Guide)学习

作者: 东方不赞 | 来源:发表于2020-04-05 22:57 被阅读0次

1. Introduction

GDC(Genomic Data Commons, 基因组数据共享中心)接收、处理和分发来自癌症研究项目的基因组、临床和生物样本数据。

2. GDC Data Model

GDC数据模型是组织GDC中所有数据构件的中心方法。GDC网站上提供了数据模型的概述，包括其组件的可视化表示。本节为数据用户、提交者和开发人员提供有关其实现的技术详细信息。

2.1 Entities实体

尽管GDC数据模型可能包含一些循环元素，但将其视为由互连实体组成的有向无环图(Directed Acyclic Graph，DAG)会很有帮助。GDC中的每个实体都有一组属性和链接。

2.2 Properties属性

属性是与实体关联的键值对。属性不能嵌套，这意味着该值必须是数值、布尔值或字符串，而不能是另一个键值集。属性可以是必需的，也可以是可选的。以下属性在构建GDC数据模型时特别重要：

Type
不可或缺。实体类型包括：project, case, demographic(人口统计), sample, read_group and others.
System properties
系统属性是GDC系统运行和维护中使用的属性。除非在特殊情况下，否则不能修改它们。
Unique keys
唯一键是可用于在GDC中唯一标识实体的属性或属性组合。例如，[project_id，submitter_id]的元组(组合)对于大多数实体都是唯一的键，这意味着虽然submitter_id在GDC中不需要是唯一的，但它在项目中必须是唯一的。

2.3 Links连接

连接定义实体之间的关系以及这些关系的多样性(例如，一对一、一对多、多对多)。

2.4 GDC Data Dictionary

GDC Data Dictionary(GDC数据字典)根据实体类型确定实体可以具有哪些属性和链接。功能相似的实体类型归入同一个category。例如，实体类型slide_image和submitted_unaligned_reads属于 data_file category，该category包含表示可下载文件的实体。

2.5 GDC标识码(GDC Identifiers)

2.5.1 UUID

创建实体时，会为其分配版本4通用唯一标识符(universally unique identifier, UUID)形式的唯一标识符。UUID唯一标识GDC中的实体，并存储在实体的id属性中。

2.5.2 Program name,Project Code, and Project ID

Program是GDC数据集的最高组织级别。每个Program都分配有一个唯一的program.name属性，且Program.name从不包含连字符。
Program中的数据集被组织到Project中，并为每个Project分配一个project.code属性。
project_id属性与GDC数据模型中的大多数实体相关联。通过将project.code附加到program.name中生成project_id。

2.5.3Submitter ID

该属性可以包含提交者希望用来标识实体的任何字符串（比如一个barcode），这可用于标识提交者记录中的相应实体。GDC要求submitter_id对于项目中的每个实体都是唯一的：[project_id，submitter_id]的元组(组合)是唯一的键。注意：case实体的submitter_id对应于project的dbGaP记录中研究参与者的submitter_subject_id。

2.6 数据获取流程和工具

可以通过基于用户的基于Web的GDC数据门户访问GDC中的数据，该门户允许浏览，查询和下载数据和元数据。另外，GDC提供了用于下载大量数据的命令行工具，以及用于以编程方式访问GDC功能的应用程序编程接口（API）。

2.6.1 open和controlled的访问数据

GDC中的某些数据是开放访问的，这意味着无需身份验证或授权即可访问它。其他数据是受控制的访问，这意味着访问需要dbGaP授权和eRA Commons身份验证。在研究参与者的知情同意的情况下，根据Data Access Policies确定数据集是开放的还是受控的。

开放获取数据通常包括无法单独识别的高级基因组数据，以及大多数临床和所有生物样本数据元素。
受控数据通常包括可单独识别的数据，例如低水平基因组测序数据，种系变体，SNP6基因型数据和某些临床数据元素。特定程序的数据访问委员会授予对受控数据的访问权限。

2.6.2 数据获取流程

在GDC Data Potal(GDC数据门户)为用户提供基于网络的浏览、查询和下载数据的设施。

登陆

要下载受控制的访问数据，用户必须登录eRA Commons并可以通过dbGaP访问数据。
访问开放访问数据时无需登录。通过GDC数据门户，用户可以查询数据并将文件添加到购物车中以进行下载。

下载方式

对于少量的元数据和数据，用户可以直接从GDC数据门户下载数据。
对于大批量数据，用户可以使用GDC Data Transfer Tool(GDC数据传输工具)下载数据，该工具基于客户端，旨在实现高效的数据传输。
要使用数据传输工具一次下载多个文件，用户可以在GDC数据门户中创建和下载manifest(清单)。要下载受控的访问数据，用户可以从GDC数据门户下载token(令牌)。
GDC Application Programming Interface (应用程序编程接口, API）也可用于以编程方式下载数据。

Data access process

下载方式比较

	GDC Data Portal	GDC Data Transfer Tools	GDC API
基于	Web	客户端	程序
智能搜索高级查询语言	√
使用facet预定过滤器搜索数据	√		√
分析数据可视化	√
需要dbGaP下载受控数据	√	√	√
下载小批量数据	√	√	√
下载大批量数据		√	√

3. Data Security

略，详见GDC Data Security

4. file format(文件格式)

4.1 MAF

Mutation Annotation Format(MAF)是一个制表符分隔的文本文件，包含来自VCF文件的整合过的突变信息，在project级别生成。

4.1.1 MAF文件概述

MAF文件由 Somatic Aggregation Workflow 生成。GDC会在两个权限级别上生成MAF文件：protected.maf和somatic.maf（开放访问）。每个GDC项目调用不同的pipeline就会产生一个MAF文件。通过汇总每个项目的pipeline、整合带有GDC注释的VCF文件以生成MAF文件。带注释的VCF文件经常记录多个转录本上变体，而从VCF(*protected.maf)生成的MAF只记录受最严重影响的那个。

体细胞MAFs(*somatic.maf)，也被称为Masked Somatic Mutation文件，通过进一步处理以移除质量较低的和潜在的生殖系变异。对于包含来自tumor-normal等分对的多个组合的变异的肿瘤样本，根据其样本类型在体细胞MAF中仅选择一对。
Somatic MAF是公开可用的。

4.1.2 Somatic MAF File Generation

以下是从protected.maf到somatic.maf的转换流程：

Aliquot Selection等分选择：根据从肿瘤TCGA等分条码中提取的牌号、样本类型、分析物类型和其他特征，为每个肿瘤样本仅选择一个tumor-normal对。
低质量变异过滤和胚系掩蔽
删除以下列：
– vcf_region
– vcf_info
– vcf_format
– vcf_tumor_gt
– vcf_normal_gt
– GDC_Valid_Somatic
设定可能包含生殖系基因型信息的列的值为空：
– Match_Norm_Seq_Allele1
– Match_Norm_Seq_Allele2
– Match_Norm_Validation_Allele1
– Match_Norm_Validation_Allele2
– n_ref_count
– n_alt_count

Somatic MAF Generation

4.1.3 Protected MAF File Structure

下表描述了Protected MAF中的列及其定义。请注意，除了去掉最后六列外，Somatic MAF(open)结构是相同的。

柱	描述
1-Hugo_Symbol	HUGO Symbol的基因（HUGO symbols总是在全部大写）。“unknow”用于与基因不对应的区域
2-Enter_Gene_Id	Entrez gene ID（整数）。“ 0”用于与基因区域或Ensembl ID不对应的区域
3-Center	一个或多个基因组测序中心报告了该变异
4-NCBI_Build	用于比对的参考基因组（GRCh38）
5-Chromosome	受影响的染色体（chr1）
6-Start_Position	报告的变体在基因组参考序列上的最低数字位置。变异起始座标
7-End_Position	报告的变体在基因组参考序列上的最高数字基因组位置。变异结束坐标
8-Strand	报告的等位基因的基因组链。目前，所有变体都将报告正链：“ +”
9-Variant_Classification	变异等位基因的翻译作用
10-Variant_Type	突变类型。TNP（三核苷酸多态性）类似于DNP（二核苷酸多态性），但连续三个核苷酸。ONP（寡核苷酸多态性）类似于TNP，但连续运行四个或更多（SNP，DNP，TNP，ONP，INS，DEL或合并）
11-Reference_Allele	正链参考等位基因在此位置。包括删除的序列（用于删除）或“-”（用于插入）
12-Tumor_Seq_Allele1	肿瘤测序（发现）等位基因1的主要数据基因型。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
13-Tumor_Seq_Allele2	肿瘤测序（发现）等位基因2
14-dbSNP_RS	来自 dbSNP数据库rs-IDs，如果在使用的任何数据库中均未找到，则为“ novel”；如果没有dbSNP记录，但在其他数据库中找到，则为null
15-dbSNP_Val_Status	dbSNP验证状态报告为以分号分隔的状态列表。如果存在多个，则采用所有rs-ID的并集
16-Tumor_Sample_Barcode	肿瘤样本的等分条形码
17-Matched_Norm_Sample_Barcode	匹配的正常样品的等分条形码
18-Match_Norm_Seq_Allele1	主要数据基因型。匹配的正常测序等位基因1.缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基（在体细胞MAF中清除）
19-Match_Norm_Seq_Allele2	匹配的正常测序等位基因2
20-Tumor_Validation_Allele1	来自正交技术的辅助数据。等位基因1的肿瘤基因分型（验证）。缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基
21-Tumor_Validation_Allele2	来自正交技术的辅助数据。等位基因2的肿瘤基因分型（验证）
22-Match_Norm_Validation_Allele1	来自正交技术的辅助数据。等位基因1的匹配正常基因分型（验证）。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基（在体细胞MAF中清除）
23-Match_Norm_Validation_Allele2	来自正交技术的辅助数据。等位基因2的匹配正常基因分型（验证）（在体细胞MAF中清除）
24-Verification_Status	第二次通过是通过独立尝试使用与主要数据源相同的方法得出的。通常为3730 Sanger测序保留
25-Validation_Status	正交技术的第二遍结果
26-Mutation_Status	对体细胞，种系，LOH，转录后修饰，未知或无突变的评估。该字段中允许的值受Validation_Status字段中的值约束
27-Sequencing_Phase	TCGA测序阶段（如果适用）。在所考虑的目标发生变化的任何情况下，阶段都应发生变化
28-Sequencing_Source	用于产生用于测序的分析物的分子分析类型。允许的值是SRA 1.5 library_strategy字段值的子集。此子集与CGHub上使用的子集匹配
29-Validition_Method	用于验证调用的测定平台
30-Score	未使用
31-BAM_File	未使用
32-Sequencer	用于产生初级序列数据的仪器
33-Tumor_Sample_UUID	GDC等分试样UUID用于肿瘤样品
34-Matched_Norm_Sample_UUID	匹配正常样品的GDC等分试样UUID
35-HGVSc	HGVS建议格式的变体编码顺序
36-HGVSp	HGVS建议格式的变体蛋白序列。“ p。=”表示蛋白质没有变化
37-HGVSp_Short	与HGVSp列相同，但使用1个字母的氨基酸代码
38-Transcript_ID	受变异影响的转录本的ENSEMBL ID
39-Exon_Number	外显子数（来自总数）
40-t_depth	肿瘤BAM中该基因座的read深度
41-t_ref_count	read深度支持肿瘤BAM中的参考等位基因
42-t_alt_count	read支持肿瘤BAM中变异等位基因的深度
43-n_depth	正常BAM中此基因座的read深度
44-n_ref_count	正常BAM中支持参考等位基因的read深度（在体细胞MAF中清除）
45-n_alt_count	支持正常BAM中变异等位基因的read深度（在Somatic MAF中清除）
46-all_effects	以分号分隔的所有可能的变体效果列表，按优先级排序（[符号，结果，HGVSp_Short，Transcript_ID，RefSeq，HGVSc，Impact，Canonical，Sift，PolyPhen，Strand]）
47-Allele	用于计算结果的变异等位基因
48-Gene	受影响基因的稳定整合体ID
49-Feature	功能的稳定Ensembl ID（transcript, regulatory, motif）
50-Feature_type	功能类型。当前是Transcript, RegulatoryFeature, MotifFeature (or blank)）
51-One_Consequence	标准转录本的唯一结果 sequence ontology术语
52-Consequence	此变体的后果类型； sequence ontology项目
53-cDNA_Position	碱基对在cDNA序列中的相对位置（以分数表示）。如果变体未出现在cDNA中，则分子显示为“-”符号
54-CDS_position	碱基对在编码序列中的相对位置。如果变体未出现在编码序列中，则分子显示为“-”符号
55-Protein_Position	蛋白质中受影响氨基酸的相对位置。如果变体未出现在编码序列中，则分子显示为“-”符号
56-Amino_acids	仅当变异影响蛋白质编码序列时才给出
57-Codons	带有大写变体碱基的替代密码子
58-Existing_variation	现有变化的已知标识符
59-ALLELE_NUM	输入的等位基因编号；0是参考，1是第一个替代，依此类推。
60-DISTANCE	从变体到转录本的最短距离
61-TRANSCRIPT_STRAND	转录本/特征所在的DNA链（1或-1）
62-SYMBOL	基因符号
63-SYMBOL_SOURCE	基因符号的来源
64-HGNC_ID	HUGO基因命名委员会的基因标识符（如果适用）
65-BIOTYPE	Transcript的生物型
66-CANONICAL	标记（YES）表示基于VEP的规范转录本（翻译时间最长）已用于该基因。如果不是，则该值为null
67-CCDS	此转录本的CCDS标识符（如果适用）
68-ENSP	受影响的转录本的Ensembl蛋白质标识符
69-SWISSPROT	UniProtKB / Swiss-Prot加入
70-TREMBL	蛋白质产品的UniProtKB / TrEMBL标识符
71-UNIPARC	蛋白质产品的UniParc标识符
72-RefSeq	此转录本的RefSeq标识符
73-SIFT	的 SIFT预测和/或得分，两者均作为预测（得分）
74-PolyPhen	的 PolyPhen预测和/或得分
75-EXON	外显子数（总数中）
76-INTRON	内含子编号（总数中）
77-DOMAINS	任何重叠蛋白质结构域的来源和标识符
78-GMAF	非参考等位基因和现有变异的频率（ in 1000 Genomes）
79-AFR_MAF	非洲人群-1000 Genomes中非参考等位基因和现有变异的频率
80-AMR_MAF	1000 Genomes-美国人群中非参考等位基因和现有变异的频率
81-ASN_MAF	1000 Genomes-亚洲人群中非参考等位基因和现有变异的频率
82-EAS_MAF	1000 Genomes-东亚人群的非参考等位基因和现有变异的频率
83-EUR_MAF	1000 Genomes-欧洲人群中非参考等位基因和现有变异的频率
84-SAS_MAF	1000 Genomes-南亚人群的非参考等位基因和现有变异的频率
85-AA_MAF	非参考等位基因和现有变异的频率 NHLBI-ESP非洲裔美国人群
86-EA_MAF	NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
87-Clin_SIG	dbSNP变异体的临床意义
88-SOMATIC	在Existing_variation（0、1或null）下报告的每个ID的体细胞状态
89-PUBMED	引用现有变体的出版物的Pubmed ID
90-MOTIF_NAME	在此位置对齐的转录因子结合图谱的来源和标识符
91-MOTIF_POS	对齐的TFBP中变化的相对位置
92-HIGH_INF_POS	指示变体是否落在转录因子结合图谱（TFBP）的较高信息位置的标志（Y，N或null）
93-MOTIF_SCORE_CHANGE	TFBP参考序列和变异序列的基序得分差异
94-IMPACT	结果类型的影响修饰符
95-PICK	指示此结果数据块是否由VEP的 pick feature（1或null）
96-VARIANT_CLASS	序列本体变体类
97-TSL	Transcript support level，基于独立的RNA分析
98-HGVS_OFFSET	表示此变体的HGVS表示法已移动多少个碱基
99-PHENO	指示现有变体是否与表型，疾病或性状相关（0、1或null）
100-MINIMISED	此变量中的等位基因在结果计算之前已转换为最小表示形式（1或null）
101-ExAC_AF	来自的全球等位基因频率 ExAC
102-ExAC_AF_Adj	从ExAC调整的全球等位基因频率
103-ExAC_AF_AFR	ExAC的非洲/非裔美国人等位基因频率
104-ExAC_AF_AMR	ExAC的美国等位基因频率
105-ExAC_AF_EAS	ExAC的东亚等位基因频率
106-ExAC_AF_FIN	ExAC的芬兰等位基因频率
107-ExAC_AF_NFE	ExAC的非芬兰欧洲等位基因频率
108-ExAC_AF_OTH	ExAC的其他等位基因频率
109-ExAC_AF_SAS	ExAC的南亚等位基因频率
110-GENE_PHENO	指示变体映射到的基因是否与表型，疾病或性状相关（0、1或null）
111-FILTER	从输入VCF复制。这包括由变体调用程序和DNA-Seq管道中使用的其他外部软件直接实现的过滤器。有关其他详细信息，请参见下文。
112-CONTEXT	每个VCF规格的参考等位基因及其五个侧翼碱基对
113-src_vcf_id	输入的VCF文件的GDC UUID
114-tumor_bam_uuid	肿瘤bam文件的GDC UUID
115-normal_bam_uuid	普通bam文件的GDC UUID
116-case_id	案件的GDC UUID
117-GDC_FILTER	GDC滤波器普遍应用于所有MAF
118-COSMIC	重叠的COSMIC变体
119-MC3_Overlap	指示该区域是否与同一样本对的MC3变体重叠
120-GDC_Validation_Status	GDC实施有效性检查。有关详细信息，请参见下面的注释部分（＃5）
121-GDC_Valid_Somatic	是非题（不适用于躯体MAF）
122-vcf_region	用冒号分隔的字符串，包含来自VCF文件的CHROM，POS，ID，REF和ALT列(例如,chrZ:20:rs1234:A:T)（不在Somatic MAF中）
123-vcf_info	VCF中的INFO列（不在Somatic MAF中）
124-vcf_format	VCF中的FORMAT列（不在Somatic MAF中）
125-vcf_tumor_gt	VCF的肿瘤样本基因型列（不在Somatic MAF中）
126-vcf_normal_gt	来自VCF的正常样本基因型列（不在体细胞MAF中）

4.1.4 使用MAF时参数的注意事项

第4列，NCBI_Build为GRCh38(by default)。
第32列，Sequencer包括使用的测序设备。如果使用不同的测序设备来生成正常和肿瘤数据，则会首先列出正常的测序设备。
第61列，VEP名称“STRAND”改为TRANSCRIPT_STRAND以避免与第8列的“Strand”混淆。
第94列，IMPACT类别由VEP软件定义，不一定反映每个突变的相对生物影响。
第122-125列，vcf_info, vcf_format, vcf_tumor_gt, and vcf_normal_gt是来自VCF文件的相应列。包括它们有助于解析特定的变体信息。
第120列，**GDC_Validation_Status：GDC还收集TCGA验证序列。它将这些与来自同一样本的NGS数据的变体进行比较，并将比较结果填充到“GDC_VALIDATION_STATUS”中。
- “Valid”：肿瘤验证序列中的替代等位基因与GDC变体调用相同
- “Invalid”：肿瘤验证序列中的替代等位基因与GDC变体调用都不相同
- “Inconclusive”：存在两个替代等位基因，且一个匹配、一个不匹配
- “Unknown”：不存在验证序列
第121列，当GDC_VALIDATION_STATUS为“Valid”，且variant为“Somatic”时，GDC_Valid_Somatic为TRUE，否则FALSE

4.1.5 FILTER(111列)值的定义

oxog：表示此变体被确定为OxoG工件。这是用D-ToxoG计算的.
bPcr：表示该变体被确定为PCR模板链上的偏差伪影。这是用DKFZ偏置滤波器计算的。
bSeq：表示该变体被确定为正向/反向链上的偏差伪像。这也是用DKFZ偏置滤波器计算的。

4.1.6 Impact Categories

VEP
- HIGH(H)：假定该变体对蛋白质具有高(破坏性)影响，可能导致蛋白质截断、功能丧失或触发无意义介导的衰退
- MODERATR(M)：可能改变蛋白质有效性的非破坏性变体
- LOW(L)：假设大部分无害或不太可能改变蛋白质行为
- MODIFIER(MO)：通常是非编码变体或影响非编码基因的变体，在这种情况下预测困难或没有证据表明影响
Polyphen
- probably damaging(PR)：具有很高的可信度，它被认为影响蛋白质功能或结构
- prossibly damaging(PO)：它被认为影响蛋白质功能或结构
- benign(BE)：最有可能缺乏任何表型效应
- unknown(UN)：在某些罕见情况下，缺乏数据不允许PolyPhen进行预测筛选
SIFT
- tolerated：不太可能有表型效应
- toelrated_low_confidence：比“tolerated”更有可能有表型效应
- deleterious：可能有表型效应·
- deleterious_low_confidence：比“deleterious”更不可能有表型效应

4.2 VCF

4.2.1 VCF文件介绍

The GDC DNA-Seq somatic variant-calling pipeline compares a set of matched tumor/normal alignments and produces a VCF file. VCF files report the somatic variants that were detected by each of the four variant callers. Four raw VCFs (Data Type: Raw Simple Somatic Mutation) are produced for each tumor/normal pair of BAMs. Four additional annotated VCFs (Data Type: Annotated Somatic Mutation) are produced by adding biologically relevant information about each variant.

The GDC VCF file format follows standards of the Variant Call Format (VCF) Version 4.1 Specification. Raw Simple Somatic Mutation VCF files are unannotated, whereas Annotated Somatic Mutation VCF files include extensive, consistent, and pipeline-agnostic annotation of somatic variants.

4.2.2 VCF文件结构

Metadata header

A VCF file starts with lines of metadata that begin with ##. Some key components of this section include:

gdcWorkflow: Information on the pipelines that were used by the GDC to generate the VCF file. Annotated VCF files contain two gdcWorkflow lines, one that reports the variant calling process and one that reports the variant annotation process.
INDIVIDUAL:

information about the study participant (

case

), including:

NAME: Submitter ID (barcode) associated with the participant
ID: GDC case UUID
SAMPLE:

sample information, including:

ID: NORMAL or TUMOR
NAME: Submitter ID (barcode) of the aliquot
ALIQUOT_ID: GDC aliquot UUID
BAM_ID: The UUID for the BAM file used to produce the VCF
INFO:

Format of

additional information

fields

NOTE: GDC Annotated VCFs may contain multiple INFO lines. The last INFO line contains information about annotation fields generated by the Somatic Annotation Workflow (see GDC INFO Fields below).
FILTER: Description of filters that have been applied to the variants
FORMAT: Description of genotype fields
reference: The reference genome used to generate the VCF file (GRCh38.d1.vd1.fa)
contig:

A list of IDs for the contiguous DNA sequences that appear in the reference genome used to produce VCF files

NOTE: Annotated VCFs include contig information for autosomes, sex chromosomes, and mitochondrial DNA. Unplaced, unlocalized, human decoy, and viral genome sequences are not included.
VEP: the VEP command used by the Somatic Annotation Workflow to generate the annotated VCF file.

Column Header Line

Each variant is represented by a row in the VCF file. Below each of the columns are described:

CHROM: The chromosome on which the variant is located
POS: The position of the variant on the chromosome. Refers to the first position if the variant includes more than one base
ID: A unique identifier for the variant; usually a dbSNP rs number if applicable
REF: The base(s) exhibited by the reference genome at the variant's position
ALT: The alternate allele(s), comma-separated if there are more than one
QUAL: Not populated
FILTER: The names of the filters that have flagged this variant. The types of filters used will depend on the variant caller used.
INFO: Additional information about the variant. This includes the annotation applied by the VEP.
FORMAT: The format of the sample genotype data in the next two columns. This includes descriptions of the colon-separated values.
NORMAL: Colon-separated values that describe the normal sample
TUMOR: Colon-separated values that describe the tumor sample

See Variant Call Format (VCF) Version 4.1 Specification for details.

4.2.3 GDC INFO fields

Field	Description	中文描述
Allele	The variant allele used to calculate the consequence	用于计算结果的变异等位基因
Consequence	Consequence type of this variant	此变体的后果类型
IMPACT	The impact modifier for the consequence type	结果类型的影响修饰符
SYMBOL	The HUGO gene symbol	HUGO基因符号
Gene	Ensembl stable ID of the affected gene	整合受影响基因的稳定ID
Feature_type	Type of feature. Currently one of Transcript, RegulatoryFeature, MotifFeature.	功能类型。目前是文字记录，监管功能，MotifFeature之一。
Feature	Ensembl stable ID of the feature	整合功能的稳定ID
BIOTYPE	The type of transcript or regulatory feature (e.g. protein_coding)	转录本或调控功能的类型（例如，protein_coding）
EXON	Exon number (out of total exons)	外显子数（外显子总数）
INTRON	Intron number (out of total introns)	内含子数量（在所有内含子中）
HGVSc	The HGVS coding sequence name	HGVS编码序列名称
HGVSp	The HGVS protein sequence name	HGVS蛋白序列名称
cDNA_position	Relative position of base pair in cDNA sequence	碱基对在cDNA序列中的相对位置
CDS_position	Relative position of base pair in coding sequence	碱基对在编码序列中的相对位置
Protein_position	Relative position of the affected amino acid in protein	蛋白质中受影响氨基酸的相对位置
Amino_acids	Change in amino acids (only given if the variant affects the protein-coding sequence)	氨基酸变化（仅在变体影响蛋白质编码序列时给出）
Codon	The affected codons with the variant base in upper case	带有大写变体碱基的受影响密码子
Existing_variation	Known identifier of existing variant; usually a dbSNP rs number if applicable	现有变体的已知标识符；如果适用，通常是一个dbSNP rs号
ALLELE_NUM	Allele number from input; 0 is reference, 1 is first alternate, etc.	输入的等位基因编号；0是参考，1是第一个替代，依此类推。
DISTANCE	Shortest distance from variant to transcript	变体到转录本的最短距离
STRAND	The DNA strand (1 or -1) on which the transcript/feature lies	转录本/特征所在的DNA链（1或-1）
FLAGS	Transcript quality flags	成绩单质量标志
VARIANT_CLASS	Sequence Ontology variant class	序列本体变体类
SYMBOL_SOURCE	The source of the gene symbol	基因符号的来源
HGNC_ID	HGNC gene ID	HGNC基因ID
CANONICAL	A flag indicating if the transcript is denoted as the canonical transcript for this gene	一个标志，指示该转录本是否被表示为该基因的规范转录本
TSL	Transcript support level	笔录支持级别
APPRIS	APPRIS isoform annotation	APPRIS同种型注释
CCDS	The CCDS identifer for this transcript, where applicable	适用于此笔录的CCDS标识符
ENSP	The Ensembl protein identifier of the affected transcript	受影响的转录本的Ensembl蛋白质标识符
SWISSPROT	UniProtKB/Swiss-Prot identifier of protein product	蛋白产品的UniProtKB / Swiss-Prot标识符
TREMBL	UniProtKB/TrEMBL identifier of protein product	蛋白质产品的UniProtKB / TrEMBL标识符
UNIPARC	UniParc identifier of protein product	蛋白质产品的UniParc标识符
RefSeq	RefSeq gene ID	RefSeq基因ID
GENE_PHENO	Indicates if the gene is associated with a phenotype, disease or trait	指示基因是否与表型，疾病或性状相关
SIFT	The SIFT prediction and/or score, with both given as prediction (score)	SIFT预测和/或分数，两者均作为预测（分数）
PolyPhen	The PolyPhen prediction and/or score	PolyPhen预测和/或分数
DOMAINS	The source and identifier of any overlapping protein domains	任何重叠蛋白质结构域的来源和标识符
HGVS_OFFSET	Indicates by how many bases the HGVS notations for this variant have been shifted	表示此变体的HGVS表示法已移动多少个碱基
GMAF	Non-reference allele and frequency of existing variant in 1000 Genomes	1000个基因组中现有基因的非参考等位基因和频率
AFR_MAF	Non-reference allele and frequency of existing variant in 1000 Genomes combined African population	非洲人口总数1000个基因组中非参考等位基因和现有变异的频率
AMR_MAF	Non-reference allele and frequency of existing variant in 1000 Genomes combined American population	1000个基因组合并的美国人群中非参考等位基因和现有变异的频率
EAS_MAF	Non-reference allele and frequency of existing variant in 1000 Genomes combined East Asian population	1000个基因组合并的东亚人群的非参考等位基因和现有变异的频率
EUR_MAF	Non-reference allele and frequency of existing variant in 1000 Genomes combined European population	欧洲人群中1000个基因组中非参考等位基因和现有变异的频率
SAS_MAF	Non-reference allele and frequency of existing variant in 1000 Genomes combined South Asian population	1000个基因组合并的南亚人群的非参考等位基因和现有变异的频率
AA_MAF	Non-reference allele and frequency of existing variant in NHLBI-ESP African American population	NHLBI-ESP非裔美国人人群中非参考等位基因和现有变异的频率
EA_MAF	Non-reference allele and frequency of existing variant in NHLBI-ESP European American population	NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率
ExAC_MAF	Frequency of existing variant in ExAC combined population	ExAC合并人群中现有变体的频率
ExAC_Adj_MAF	Adjusted frequency of existing variant in ExAC combined population	ExAC合并人群中现有变体的调整频率
ExAC_AFR_MAF	Frequency of existing variant in ExAC African/American population	ExAC非洲/美国人口中现有变体的频率
ExAC_AMR_MAF	Frequency of existing variant in ExAC American population	ExAC美国人口中现有变体的频率
ExAC_EAS_MAF	Frequency of existing variant in ExAC East Asian population	ExAC东亚人口中现有变体的频率
ExAC_FIN_MAF	Frequency of existing variant in ExAC Finnish population	ExAC芬兰人口中现有变体的频率
ExAC_NFE_MAF	Frequency of existing variant in ExAC Non-Finnish European population	ExAC非芬兰欧洲人口中现有变体的频率
ExAC_OTH_MAF	Frequency of existing variant in ExAC combined other combined populations	ExAC中现有变体的出现频率加上其他合并人群
ExAC_SAS_MAF	Frequency of existing variant in ExAC South Asian population	ExAC南亚人口中现有变体的频率
CLIN_SIG	Clinical significance of variant from dbSNP	dbSNP变异体的临床意义
SOMATIC	Somatic status of existing variant(s)	现有变体的体细胞状态
PHENO	Indicates if existing variant is associated with a phenotype, disease or trait	指示现有变体是否与表型，疾病或性状相关
PUBMED	Pubmed ID(s) of publications that cite existing variant	引用现有变体的出版物的公开ID
MOTIF_NAME	The source and identifier of a transcription factor binding profile aligned at this position	在此位置对齐的转录因子结合图谱的来源和标识符
MOTIF_POS	The relative position of the variation in the aligned TFBP	对齐的TFBP中变化的相对位置
HIGH_INF_POS	A flag indicating if the variant falls in a high information position of a transcription factor binding profile (TFBP)	指示变体是否落在转录因子结合图谱（TFBP）的较高信息位置的标记
MOTIF_SCORE_CHANGE	The difference in motif score of the reference and variant sequences for the TFBP	TFBP参考序列和变异序列的基序得分差异
ENTREZ	Entrez ID	输入ID
EVIDENCE	Evidence that the variant exists	该变体存在的证据

TCGA数据库(GDC Data User's Guide)学习

1. Introduction

2. GDC Data Model

2.1 Entities实体

2.2 Properties属性

2.3 Links连接

2.4 GDC Data Dictionary

2.5 GDC标识码(GDC Identifiers)

2.5.1 UUID

2.5.2 Program name,Project Code, and Project ID

2.5.3Submitter ID

2.6 数据获取流程和工具

2.6.1 open和controlled的访问数据

2.6.2 数据获取流程

登陆

下载方式

下载方式比较

3. Data Security

4. file format(文件格式)

4.1 MAF

4.1.1 MAF文件概述

4.1.2 Somatic MAF File Generation

4.1.3 Protected MAF File Structure

4.1.4 使用MAF时参数的注意事项

4.1.5 FILTER(111列)值的定义

4.2 VCF

4.2.1 VCF文件介绍

4.2.2 VCF文件结构

Metadata header

Column Header Line

4.2.3 GDC INFO fields

Bioinfomatics Pipeline

DNA-Seq Analysis

mRNA Analysis

miRNA Analysis

Copy Number Variation

Methylation Liftover

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生息分析

TCGA