美文网首页DL/ML/生物信息
ICGC-DCC肿瘤数据库初识

ICGC-DCC肿瘤数据库初识

作者: 徐广惠_6f76 | 来源:发表于2019-10-11 16:10 被阅读0次

一、概况

  • ICGC全称是International Cancer Genome Consortium (国际癌症基因组联合体)。其旨在发起和协调大量的研究项目,其共同目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。

  • ICGC Data Portal提供了用于可视化,查询和下已发布的数据的数据工具。中国镜像站网址:https://icgcportal.genomics.cn/

  • ICGC数据库目前收录了76个研究项目的结果数据,记录了1.7万余癌症患者的68,194,271个突变信息,涉及了5万余个基因信息。

二、结果数据下载

点击DCC DATA RELEASES进入数据下载界面:

  • DCC DATA RELEASES PROJECTS 包括多个项目数据,可以选择Summary进行全部项目的下载,也可以选择单个项目进行下载。

  • 每个项目都包括donor、biomarker、exposure、famliy、surgery、therapy、sample、specimen, 以及最重要的simple_somatic_mutation 的信息。可直接点击链接下载。

  • simple_somatic_mutation文件的表头包括:

  1. icgc_mutation_id
  2. icgc_donor_id
  3. project_code
  4. icgc_specimen_id
  5. icgc_sample_id
  6. matched_icgc_sample_id
  7. submitted_sample_id
  8. submitted_matched_sample_id
  9. chromosome
  10. chromosome_start
  11. chromosome_end
  12. chromosome_strand
  13. assembly_version
  14. mutation_type
  15. reference_genome_allele
  16. mutated_from_allele
  17. mutated_to_allele
  18. quality_score
  19. probability
  20. total_read_count
  21. mutant_allele_read_count
  22. verification_status
  23. verification_platform
  24. biological_validation_status
  25. biological_validation_platform
  26. consequence_type
  27. aa_mutation
  28. cds_mutation
  29. gene_affected
  30. transcript_affected
  31. gene_build_version
  32. platform
  33. experimental_protocol
  34. sequencing_strategy
  35. base_calling_algorithm
  36. alignment_algorithm
  37. variation_calling_algorithm
  38. other_analysis_algorithm
  39. seq_coverage
  40. raw_data_repository
  41. raw_data_accession
  42. initial_data_release_date

其中raw_data_repository,raw_data_accession的信息值得注意,它给出了获取样本原始测序数据的渠道。

三、原始数据下载

  • 美国的项目(TCGA,TARGET)原始数据可以在GDC(Genomic Data Commons)网站上下载 https://portal.gdc.cancer.gov/, 但需要权限。

  • 美国以外的项目可以在 European Genome-phenome Archive (EGA, https://ega-archive.org/)上下载原始数据,同样需要向项目相关人员申请下载权限。

  • 一个成功申请GDC数据权限的丁香园战友分享: 如果你所在的科研机构有eRA Commons账号的话,你自己以PI身份申请一个子账号,然后再写项目申请,等待SO审核,再等待GDC审核。

四、延伸阅读

关于TCGA数据库的介绍,推荐另外一篇简书文章,https://www.jianshu.com/p/829c3e311e54

相关文章

  • ICGC-DCC肿瘤数据库初识

    一、概况 ICGC全称是International Cancer Genome Consortium (国际癌症基...

  • Oracle从入门到精通

    01 数据库技术学习准备02 初识Oracle数据库

  • [数据库] 肿瘤分析相关数据库

    肿瘤研究相关数据库: 最经典的Cosmic数据库COSMIC 全称:Catalogue of somatic mu...

  • 肿瘤数据库

    综合性肿瘤数据库 1.TCGA:https://cancergenome.nih.gov 2. GEO 3. C...

  • MySQL数据库的安装与使用

    MySQL数据库 概要 一、初识MySQL数据库 1. 数据库的概述 <1> 数据库:Database 长期存储在...

  • Mongodb

    初识 MongoDB 数据库引擎 安装 MongoDB 数据库引擎 至MongoDB 官网下载LTS 版本(长期支...

  • 第一讲 初始数据库系统

    初识数据库系统 表(table)的理解: 数据库(Database):相互有关联关系的 Table 的集合 数据库...

  • TISCH || 肿瘤免疫单细胞中心

    肿瘤免疫单细胞中心(TISCH)是一个专注于肿瘤微环境(TME)的scRNA-seq数据库。TISCH在单细胞水平...

  • 人类肿瘤数据库

    肿瘤是四大非传染性疾病之一,造成人类死亡率的14.6%左右。目前有100多种不同的肿瘤类型,500多个基因参与肿瘤...

  • MySQL学习笔记(一)

    一、初识MySQL 1.1、什么是数据库 数据库 ( DataBase , 简称DB )概念 : 长期存放在计算机...

网友评论

    本文标题:ICGC-DCC肿瘤数据库初识

    本文链接:https://www.haomeiwen.com/subject/puxxmctx.html