生物信息数据库的使用

作者: superqun | 来源:发表于2019-05-12 22:23 被阅读5次

    superqun 原创于简书

    手工目录:

    目录

    Q1:如何在肺癌数据库中选出k-ras突变的病人样本。

    1. 使用GDC下载。

    image

    GDC portal页面中选择Exploration并进入。
    在case选项卡中选择

    • primary->Bronchus and lung;
    • Program->TCGA;
    • roject->TCGA-LUAD;

    在Gene选项卡搜索kras,选择了202例kras突变的点击 View Files in Repository.然后可以在Repository中选择需要下载kras突变的病例的相关文件。

    image

    2.通过UCSC xena下载kras基因突变的肺腺癌LUAD样本

    UCSC xena中的study中选择LUAD
    first variable中选择phenotypic(表型)和sample type(病例类型)
    second variable中在Genomic选项下选择KRAS并注明是somatic mutation

    在过滤中分别过滤出tumormutation
    然后通过download as tsv下载数据。

    image
    image

    Q2:查询TP53基因突变/CNG/高表达对乳腺癌生存预后的影响。有哪些方法。适用场景是什么

    xena网站绘制

    在xena网站中选择BRCA癌症。
    first variable:选择phenotypic(和sample type来为稍后过滤正常组织做准备。
    second variable:选择Genomic并输入TP53来确认基因,并注明Gene Expression
    过滤:在顶部过滤出tumor数据。
    成图:在第二变量栏中右上角点击more然后选择 Kaplan Meier Plot

    image
    image

    突变和CNV同理

    oncolnc网站绘制

    oncolnc可以通过基因获取在某个癌症中的表达情况。在oncolnc输入TP53,选择BRCA癌症类型。进入生存曲线生成洁面,选择高表达和低表达的比例。例如:50:50表示表达数据从高到低前50%到后50%进行分组。生成生存曲线。还可以点击下载原始数据,可以通过其他途径进行分析。

    image

    通过第三方软件:r语言或者prism利用原始数据绘制生存分析图(已经get到目标样本的有关生存的临床信息)

    几种方法的比较

    生存曲线绘制 xena oncoln GDC数据自构
    数据时效
    原始数据下载 yes^1 yes yes
    难易程度 mid easy very hard
    曲线结构调整 no yes yes

    1:需要通过UCSC xena的DATA HUBS下载

    Q3: 如何找到口腔癌(OSCC)(oral cavity cancer sample)的样本

    在TCGA的分类中被没有OSCC的数据,只有Head and Neck Cancer(HNSC)头颈癌。需要在头颈癌样本中寻找属于oral cavity cancer的病人样本。

    通过Xena DATA HUBS获取OSCC样本

    通过Xena DATA HUBS,在HNSC网页中找到Head and Neck Cancer(HNSC)数据中的phenotype->phtnotype数据

    然后通过anatomic_neoplasm_subvision数据,筛选出oral cavity数据,得到OSCC样本。数据类型如下图

    image

    通过Xena visualization 来获取OSCC样本

    在xena网站中选择HNSC癌症。
    first variable:选择anatomic_neoplasm_subvision(这个选项不在basic选项中)
    second variable:选择其他需要研究的数据。例如sample type来区分正常组织和癌症组织。
    然后通过筛选出oral cavity cancer的病人样本,然后下载tsv格式样本

    也可以通过GDC下载clinical数据进行选择。

    Q4: METABRIC项目

    METABRIC(乳腺癌国际联盟的分子分类学)是一项加拿大与英国合作项目,旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤分类为更多的亚类。
    链接

    Q5: 在脑胶质瘤中找到GFR3-TACC3基因融合的样本信息

    TCGA数据库中可以挖掘基因融合现象。但是因为数据都是限制数据无法自行下载。有的网站进行了整合。网站http://www.tumorfusions.org/对融合基因进行了分析和整理。通过该网站可以查询到基因融合现象。

    image
    Navigation中进入Cancer Type然后选择GBM,在结果中再次检索GFR3,得到有关GFR3的基因融合情况。
    image

    Q6:TCGA中数据类型和格式

    DNAseq数据

    获取方式:通过全外显子组测序(wxs)和全基因组测序(wgs)获得

    [图片上传失败...(image-2b9c2b-1557670945395)]

    数据类型 说明 格式
    Aligned Reads GRCh38 比对 BAM格式文件
    RAW simple somatic mutation 制表符分隔文件,其中包含与基因组位置相关的基因型信息。这里首先鉴定基因组变体。 VCF文件
    Annotated somatic mutation 对RAW ssm文件的注释,注释信息包括突变的生物学背景 VCF文件
    Aggregrated somatic Mutation 聚合的VCF文件,包含所有案例可用的突变信息。 MAF文件(tab分割)
    Masked somatic Mutation 删除了可能出错的信息。是ASM的修正信息 MAF文件

    RNAseq数据

    获取方式:通过RNAseq测序的HT-seq数据整合,比对GRCh38基因组然后量化。

    image
    数据类型 说明 格式
    RNA-Seq Alignment 和GRCh38比对的文件 BAM格式文件
    HT-Seq Read Counts 通过HT-seq软件比对的结果文件,记录counts数 TXT格式文件
    STAR Reads Counts 通过STAR软件比对的结果文件,记录counts数 TSV格式文件
    FPKM文件 标准化的,消除测序深度和基因长度的因素 TXT格式文件
    FPKM-UQ FPKM公式进行修改。分母不再是编码蛋白的reads总数而是,75%的read数^* TXT格式文件

    miRNASeq数据

    数据类型 说明 格式
    Aligned Reads 和GRCh38比对的文件 BAM文件
    miRNA Expression Quantification miRNA ID和read数和标准化后的reads-per-million-miRNA-mapped TXT格式

    拷贝数变异CNV

    获取方式:Affymetrix SNP 6.0芯片,GDC进一步将拷贝数值转换为 log2(拷贝数/2)
    数据与格式

    数据类型 说明 格式
    Copy Number Segment 将连续的染色体坐标和基因坐标、平均芯片强度、和每个片段对应的探针数量 向对应的文件 TXT文件
    Masked Copy Number Segment 有和CNS文件一样的信息,只不过出去了一些有已知突变的探针 TXT文件
    Copy Number Estimate 从MSCNS中产生,记录了基因水平的拷贝增加/减少 TXT文件

    甲基化 Methylation

    获取方式:通过illumina 的HM27和HM450芯片来测量已知CpG岛的甲基化程度,以此为beta数据,beta=M/(M+U)

    数据类型 说明 格式
    Methylation Beta Value 甲基化beta值:将探针和CPG位点和相关的Metadata 数据关联 TXT文件

    VCF & MAF 格式说明:
    https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

    Q7:突变的排他性检测。例如乳腺癌中检测TP53突变而PIK3CA未突变的样本信息

    在所有的乳腺癌样本中(1099例)需要过滤出TP53突变样本(360例),然后过滤出PIK3CA突变的样本(339例),其次下载乳腺癌样本中进行了DNAseq,有突变信息的样本(987例)。然后根据样本进行筛选。
    值得一提,在cBioPortal中能够进行基因突变的排他性检测。但是,只能判断log2 Odds Ratio、p值、q没有提供具体的样本ID

    image

    如何获取生成有突变信息的样本

    在TCGA的Exploration中选择 Case -> Primary Site : Breast -> Program : TCGA。然后在右侧试图窗口选择Genes-> # SSM Affected Case in Cohort -> 360/987 -> 987 -> 下载Jason文件(包含除突变和基因外的信息)

    image

    Q8: TCGA数据库和衍生网页工具、生信数据库的使用。

    UCSC网页工具

    1.可视化
    UCSC可视化是功能十分强大的。可以实现:

    • Kaplan Meier分析:查看某基因对生存影响。
    • 比较正常组织和癌症组织生物特征的关系
    • 探索基因和临床数据的关系。例如查找基因位点甲基化与基因表达的关系。或者两个基因的工表达关系。
    • 比较野生型样本和某突变样本进行比较分析。
    image

    2.Data hub
    UCSC还可以进行便于分析的格式的数据下载。以GDC数据库为例,提供有copy number, DNA methylation, gene expression RNASeq, phonotype, somatic mutation等信息。

    image

    cbiportal数据库

    cbioportal数据库是一个基因组数据分析的可视化工具。目前为止收录了169个来源于TCGA、ICGC等多个数据库和已经发表论文的研究数据库。提供的数据类型有 somatic mutation、copy number variation、gene expression RNASeq、DNA methylation、蛋白丰度,数据都是可以下载的。

    image

    cbioportal可以通过在线分析也可以进行数据下载。数据选择可以输入多个基因。而且cbioportal可以分析

    • Oncoprint
    • Cancer Types Summary 癌症类型。
    • Mutation Exclusivity 突变排他性分析:可以分析两个基因:A、B。包括A Not B、B Not A、 Both 、Neither四种逻辑。
    • plots 图表:可以进行例如copy number、mRNA表达、突变、临床attribution等信息的两两之间的绘图展示,由于提供给了填色功能,允许按照Mutation type、 Copy Number Alteration来进行填色。所以可以看作是三个维度的信息。
    • Mutation 突变信息:包括了突变类型和突变位点,并以可视化展示,如图。
    Mutation 突变信息
    • co-expression 共表达情况:查看目的基因和哪些基因有共表达情况如图,这里看目的基因和哪些基因有共表达情况,如果需要看多个目的基因之间的共表达,需要在图表中搜索。或者用xena可视化。
    co-expression 共表达情况
    • Enrichment富集:分为Mutation 通过突变分析基因富集、Copy-number 通过拷贝数分析基因富集、 mRNA 通过mRNA分析基因富集:在三个水平来探索在目的基因有变化的样本中,其他基因的变卦情况。在mRNA表达中,至少一个基因变化的样本组称为Altered group,未发生变化的成为unaltered group.Enrichment可以查看基因发生突变、拷贝增加、mRNA表达变化会分别影响哪些基因的变化,并列举变化程度和可信度。 例如,如图,探索AR信号通路中SCOX9等在内的十个基因 在mRNA表达变化的Altered group中,μ in unaltered group是基因表达变化组的样本中平均表达值的log2转换值。σ in altered group是平均标准差。选择点个基因可以在左下柱状图中查看具体的数据分布。
    Enrichment 富集
    • Network:展示了所选的基因和在肿瘤样本中变化比较显著(是什么显著?显著突变还是显著高表达?未解)的另外50个基因的基因互作关系网络。(your query genes and the 50 most frequently altered neighbor genes )。可以下载关系网络用cytoscape进行分析。
    image
    • DownloadDownloadable Data Files:提供所选基因的拷贝变化情况(Copy-number Alterations)、突变情况、受影响的样本信息、这些样本分别在哪些基因上有变化。(都是很简略的信息)。Gene alternation Frequency:在目的基因列表中,有哪些基因的Alternation在样本中出现频率的列表。Type of genetic Alterations Across All Sample:列出发生genetic Alterations——基因变化(拷贝变化cnv或者突变)的类型。几种CNV(拷贝变化)类型:AMP-Amplified-?,HOMDEL-Homozygously Deleted-纯合删除,GAIN-Gained-?,HETLOSS-Heterozygously Deleted-杂合删除

      Download

    cbioportal和UCSC xena的区别是设计思路是xena是用户来探索少量个已知基因在样本中的生物学规律和联系,作图丰富多样可以十分丰富地自己设计图形坐标系统,可以过滤样本来求更高净准度,实现精准针对。cbioportal是发现和目的基因的关联,而且是为处理大量基因list而设计的,不能过滤样本,而且实现的图表类型自定义空间比较小,图表类型比较少。cbioportal适合在已经有部分目的基因方向不是很明确,想要以此为基础研究扩展出更多信息。xena的可视化适合单个基因、有方向的研究。

    firebrowse

    网址http://www.firebrowse.org/
    使用情景:firebrowse网站是将TCGA的数据进行了全面分析。提供有突变全景图、拷贝变异情况等。另外firebrowse提供了TCGA分析报告。可以提供例如在乳腺癌中哪些基因的CNG和mRNA表达增加最相关、哪些基因的表达和甲基化最相关等等这些top信息。

    image

    firebrowse适合在一个癌症领域最起初的探究把握。是比较前期的了解使用。

    oncolnc

    专门绘制生存曲线的网站。在Q2:查询TP53基因突变/CNG/高表达对乳腺癌生存预后的影响。有哪些方法。适用场景是什么中有介绍

    gepia网站

    提供有便捷地查询基因在肿瘤/正常组织的表达情况。还提供有其他功能,但是常用的是基因在肿瘤和正常的表达情况。

    image
    1. 这里面的正常组织是使用了GTEx数据库的数据的。
    2. 使用的癌症数据是TCGA癌症数据、使用的正常组织是TCGA的正常组织和GTEx数据。
    3. 如果需要绝对严谨的数据还是结合TCGA的数据自行分析

    tanric

    主要针对ncRNA建立的数据库。


    image

    花费了挺大的心血整理,如果认为文章对您有些许帮助,还望点个喜欢呀。我会持续更新的!

    赠人玫瑰,手有余香。感谢你的阅读。虽然我也不知道会不会有人读。

    相关文章

      网友评论

        本文标题:生物信息数据库的使用

        本文链接:https://www.haomeiwen.com/subject/sewhaqtx.html