肿瘤是四大非传染性疾病之一,造成人类死亡率的14.6%左右。目前有100多种不同的肿瘤类型,500多个基因参与肿瘤的发展。大量的研究致力于探索肿瘤的发生和治疗,随之也产生并积累了丰富的数据。如相关的科学研究、GWAS研究、基因表达、基因-基因或蛋白-蛋白相互作用的数据,以及表观、免疫、细胞遗传学等数据。然而这些数据复杂度和异质性都较高,包括没有处理和结构化的原始测序数据和经过注释和结构化的遗传多态性数据,造成了生物医学研究者对这些数据的储存、挖掘、重复使用和分析面临着巨大的挑战。
下文将对目前公共的肿瘤数据库以及相关的分析工具进行介绍。
肿瘤数据库概览
全面的肿瘤项目工程
(1)ICGC(International Cancer Genome Consortium)
(2)TCGA (The Cancer Genome Atlas)
TCGA是由国际癌症研究所和国际人类基因组研究所共同创建的,旨在提供主要的肿瘤类型和其亚型的基因组变化图谱。它同时包含临床信息、基因组特征数据和基因组的数据分析。TCGA储存的数据类型包括:基因表达、拷贝数、体细胞突变、SNPs、microRNA、临床结果、组织切片。
TCGA Data Portal 可以使用户对TCGA的数据进行探索、下载和分析。
(3)CPTAC (clinical proteomic tumor Analysis consortium )
临床蛋白质肿瘤分析中心, 利用蛋白质组学的技术——质谱解析肿瘤的基本分子特征。所有的数据可以通过提交申请免费下载。
- CPTAC Data portal :https://cptac-data-portal.georgetown.edu/cptacPublic/
(4) CGP (The Cancer Genome Project)
由Sanger 研究所发起,旨在探究体细胞突变和肿瘤发生有关的基因,同时这里的数据也会在COSMIC数据库更新。
-
COSMIC: (Catalogue of Somatic Mutations in Cancer)
http://www.sanger.ac.uk/genetics/CGP/cosmic/
与癌症相关的体细胞突变数据库及其相关出版物。数据包括在良性增生、原发性和转移性肿瘤、复发和癌细胞系中发现的突变。数据库可以根据基因、组织或组织学进行查询,并定期更新。
资源
工具
(1) CGAP (cancer genome Anatomy project)
-
http://cgap.nci.nih.gov/
CGAP 包括许多生物信息分析工具和相互连接的模块,使用户能够访问CGAP数据。这些数据包括癌症相关基因和单核苷酸多态性,癌症患者的恶性组织和染色体畸变。同时 CGAP 基于基因表达序列分析(SAGE)以及以癌症相关基因为靶点的RNA干扰(RNAi)构建,以及生化通路和蛋白质复合物,提供有关特定基因在正常、癌前和癌组织中的差异表达的信息。
(不过该网站将于2019年10月1号之后下线)
(2) CGWB (the cancer genome Workbench)
包含来自不同肿瘤项目(如TCGA、COSMIC、约翰霍普斯金大学、TARGET)的拷贝数、突变、表达、甲基化数据.
肿瘤驱动基因
(1) TCGBs (tumor gene Family Databases)
-
http://www.tumor-gene.org/tgdf.html
这是在20世纪80年代,当癌基因首次被发现时创建的数据库,现在已经过时了。
肿瘤基因家族数据库,包含肿瘤发生相关基因信息,基因信息主要有基因的便名、细胞定位、生化功能、不同肿瘤中的突变频率、染色体位置、致癌性、肿瘤基因类型、信号转导通路。
此外还包含口腔癌基因数据库 ( oral cancer gene Database ,ORCGDB) 和乳腺癌基因数据库 ( Breast cancer gene Database , BCGDB)
(2) DriverDB database
包含6000多例外显子测序数据、注释库(如dbSNP、1000 genome、COSMIC) 和不同的鉴定驱动基因的生物信息学算法。
提供了两种视觉对数据进行探索,分别是基因和肿瘤。在肿瘤模块对每种类型的癌症利用8种计算方法总结了驱动基因的结果,并且对驱动基因间的关联提供了3种层次的生物学解释。在基因模块,设计了可视化驱动基因的突变信息。
在meta分析模块中为研究者提供了在已定义的samle中鉴定驱动基因的功能。
(3) RAS Oncogene Database (RASOnD)
整合了大量的公共数据库中的基因组和蛋白质数据,目前包括101个物种的199,046个词条。
(网页打不开)
肿瘤变异
(1)COSMIC: 最大的突变信息的数据库
-
https://cancer.sanger.ac.uk/cosmic/
COSMIC是最大的储存着肿瘤突变信息和相关临床和表型数据的公共数据库。目前包括1,029,547个样本的28,735个基因的信息,其中有2,002,811个编码突变和10,435个融合基因突变信息。
(2)Cancer Gene Census (CGC)
-
https://cancer.sanger.ac.uk/census/
基于COSMIC数据库,旨在对那些含有与癌症有因果关系的突变的基因进行分类,并解释这些基因的功能障碍是如何导致癌症的。
参考:https://www.nature.com/articles/s41568-018-0060-1
(3)BioMuta
人类单核苷酸变异数据库,
(4)CaSNP
有关CNA的数据库,原始数据是从GEO的11,485个SNP芯片中收集的。网页打不开,貌似是刘小乐实验室搭建的。
(5)CanProVar--肿瘤蛋白质变异数据库
-
http://canprovar2.zhang-lab.org/
根据已发表的文献整理的用于储存和预防与人类肿瘤发生有关的人类蛋白质组的种系和体细胞氨基酸变异。
(6) CanGEM
该数据库存储了肿瘤样本的临床信息和阵列比较基因组杂交芯片(aCGH)数据,用于检测癌症中的CNA基因。用户可以为特定的临床样本特征或单个基因的CNA创建自定义数据集。
(7)ICP
(网页打不开)
表观修饰
(1)MethyCancer
-
http://methycancer.psych.ac.cn/
人类肿瘤与DNA甲基化数据库
(2) PubMeth
从pubmed发表的文献通过文本挖掘收集的有关肿瘤突变与甲基化信息的数据库
microRNA
(1) OncomiRDB: 与肿瘤相关的microRNA
(2) miRCancer
转录组
(1) Oncomine: 肿瘤芯片数据库
包含基因表达和临床信息的数据,目前有715个基因表达数据和86,733个样本,至少有5年数据没有更新
蛋白质
(1) dbDEPC: 肿瘤蛋白质数据库
image.png(2)MoKCa:Mutations, Oncogenes, Knowledge & Cancer
突变-致癌基因-肿瘤知识库
抗癌因子
(1) CanSAR
整合了多个学科的知识,包括生物学、化学、药学、结构生物学、细胞网络和临床注释等
(2)CancerResource
肿瘤药物和靶标的关系的数据库,同时含有基因组数据
(3)PharmGKB
(4)DrugBank
药物抗性
(1) CancerDR
CancerDR是一个包含148种抗癌药物及其对大约1000种癌细胞株的疗效的数据库。抗癌药物的药理学特征de 数据信息主要从CCLE和COSMIC数据库中收集。
整合资源
(1) IntOGen
目前的版本是2014年发布的,关注于癌症驱动基因、突变和通路
网友评论