主题:大数据,数据挖掘
先向:数据,问题,工具,以谁为主,
要多了解database,不能只知道TCGA。可见组学数据和数据库类型是很多的,这节课印象最深的是让我了解到需要重视了解数据库。
image.png
挖掘模式
数据驱动型研究,开始并不知道问题,自己产生数据,结合公共数据验证。
问题驱动型:最主要的是提出问题,用生信分析公开数据帮助看提出的科学问题看是否成立,
数据库实例
TCGA 05年启动,2018年不再更新,多组学可以联合TCGA,没细说,关注下
TCGA数据类型:
没过各大医院整合的,国内暂无这种,
cancer bioinformatics 以TCGA为模板的分析的书,可以按照调控顺序的思路分析。
image.png
GEO,自己上传的,不官方,但是包含的组学和平台的数据类型多,按四个分类。
探针对应基因的工具包,主要是针对芯片数据,将探针和基因对起来
image.png
简单分析方式:差异分析,R,能看其中包含的数据类型,GDC下载。差异基因也是ggplot2火山图。
主要学到的是分析的包,下载数据的包,
image.png
image.png
差异基因功能分析:TCGAbiolink能生成GO,metascae在线。GO KEGG
image.png
单基因和病人生存,肿瘤分期关联:TCGAbiolink,把基因和生存信息merge,做生存曲线分析,survial,surviminer包。分期也是合并两列。都是把基因和生存/分析的两列合并成一个矩阵
image.png
肿瘤突变分析,公司是maf文件,用maftools可视化,maf文件。plotmafsummary能画图 ,两转换,四转置一共六种突变。单基因突变详解,棒棒糖图。自己样本和TCGA作比较,看突变之间是否互斥的解析。
image.png
image.png
image.png
image.png
image.png
线上工具和数据库
TCGA,开放的是level4,处理后的数据。自己下还得合并,没TCGAbiolinks下载方便。
一些TCGA相关的网站
image.png
对TCGA的挖掘后的数据库:
GEPIA2,能把TCGAbiolinks能做的基本的东西做了。张泽民,针对RNA表达
image.png
cbioportal,能做到更多,官方工具
image.png
刘小乐 cistrome,在线工具的集合,
image.png
细胞系网站,celltype的网站
细胞系数据库,drug对细胞系的影响,药物敏感度,creasper, depmap portal
网友评论