美文网首页DL/ML/生物信息
ICGC-DCC肿瘤数据库初识

ICGC-DCC肿瘤数据库初识

作者: 徐广惠_6f76 | 来源:发表于2019-10-11 16:10 被阅读0次

    一、概况

    • ICGC全称是International Cancer Genome Consortium (国际癌症基因组联合体)。其旨在发起和协调大量的研究项目,其共同目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。

    • ICGC Data Portal提供了用于可视化,查询和下已发布的数据的数据工具。中国镜像站网址:https://icgcportal.genomics.cn/

    • ICGC数据库目前收录了76个研究项目的结果数据,记录了1.7万余癌症患者的68,194,271个突变信息,涉及了5万余个基因信息。

    二、结果数据下载

    点击DCC DATA RELEASES进入数据下载界面:

    • DCC DATA RELEASES PROJECTS 包括多个项目数据,可以选择Summary进行全部项目的下载,也可以选择单个项目进行下载。

    • 每个项目都包括donor、biomarker、exposure、famliy、surgery、therapy、sample、specimen, 以及最重要的simple_somatic_mutation 的信息。可直接点击链接下载。

    • simple_somatic_mutation文件的表头包括:

    1. icgc_mutation_id
    2. icgc_donor_id
    3. project_code
    4. icgc_specimen_id
    5. icgc_sample_id
    6. matched_icgc_sample_id
    7. submitted_sample_id
    8. submitted_matched_sample_id
    9. chromosome
    10. chromosome_start
    11. chromosome_end
    12. chromosome_strand
    13. assembly_version
    14. mutation_type
    15. reference_genome_allele
    16. mutated_from_allele
    17. mutated_to_allele
    18. quality_score
    19. probability
    20. total_read_count
    21. mutant_allele_read_count
    22. verification_status
    23. verification_platform
    24. biological_validation_status
    25. biological_validation_platform
    26. consequence_type
    27. aa_mutation
    28. cds_mutation
    29. gene_affected
    30. transcript_affected
    31. gene_build_version
    32. platform
    33. experimental_protocol
    34. sequencing_strategy
    35. base_calling_algorithm
    36. alignment_algorithm
    37. variation_calling_algorithm
    38. other_analysis_algorithm
    39. seq_coverage
    40. raw_data_repository
    41. raw_data_accession
    42. initial_data_release_date

    其中raw_data_repository,raw_data_accession的信息值得注意,它给出了获取样本原始测序数据的渠道。

    三、原始数据下载

    • 美国的项目(TCGA,TARGET)原始数据可以在GDC(Genomic Data Commons)网站上下载 https://portal.gdc.cancer.gov/, 但需要权限。

    • 美国以外的项目可以在 European Genome-phenome Archive (EGA, https://ega-archive.org/)上下载原始数据,同样需要向项目相关人员申请下载权限。

    • 一个成功申请GDC数据权限的丁香园战友分享: 如果你所在的科研机构有eRA Commons账号的话,你自己以PI身份申请一个子账号,然后再写项目申请,等待SO审核,再等待GDC审核。

    四、延伸阅读

    关于TCGA数据库的介绍,推荐另外一篇简书文章,https://www.jianshu.com/p/829c3e311e54

    相关文章

      网友评论

        本文标题:ICGC-DCC肿瘤数据库初识

        本文链接:https://www.haomeiwen.com/subject/puxxmctx.html