13ICGC突变统计
- 样品名称+基因名称+氨基酸改变,氨基酸没有改变不进行统计
- 得到统计后的表格,两个表格每个基因在多少个样品中发生突变,每个基因在样品中的突变状态还会得到一个前三十个突变最高的基因
14ICGC瀑布图输入文件
-
瀑布图输入文件
- 输入文件为13得到的突变频率最高的三十个+原有的突变信息 先把两个表格求交集可以用merge,保留样品名称,染色体,突变类型,基因名称
- 得到瀑布图输出文件
15ICGC瀑布图
- 横坐标样品,纵坐标基因,具体颜色代表突变类型,绿色为错义突变
- 左边柱状图,纵坐标基因名称,横坐标突变百分率,由于取得是前三十个,所以很高
- 上面把同义突变与错义突变同时展示
16TCGA和ICGC突变数据取交集
- 韦恩图,得到交集中的17个基因
- 把TCGA突变频率最高的前30个和ICGC最高的前30个取交集
- 如果前三十个太少,后续生存分析找不到可以用的基因,把统计表格中的前五十个基因拷贝
install.packages("venn")
- 工作目录下不要放其他的多余的文件,读取输入文件,提取基因名称,去掉基因首尾的空格,去掉重复的基因
- 绘制韦恩图,可以更改韦恩图的颜色
- 取交集基因
17计算肿瘤突变负荷
- 定义:每一百万个碱基中多少碱基发生改变
- 得到的表格第一列样品名称,第二列为TMB值
- 第八小节的输入文件(就是下载的突变数据,一般选择STAD的结果),样品名称出现次数+引起氨基酸改变,每个样品出现的次数最后进行矫正,按照外显子长度38M,得到TMB值
18肿瘤突变负荷与基因突变关系
- 箱线图 比较正常组与肿瘤组TMB差异,横坐标基因,纵坐标TMB值,纵坐标可以放宽
- 输入文件为基因的TMB值和第八节的突变矩阵,交集基因第十六节
- 从矩阵里把交集基因的突变情况提取出来与肿瘤突变负荷进行合并
- 星号代表差异情况
20基因突变的生存分析
- 横坐标生存时间,纵坐标生存率,野生组与突变组是否存在差异,p-value<0.05,存在差异;下面图是剩下病人的数目
- 输入文件就是突变矩阵
- 生存时间单位要转换为年
21独立预后分析
- 单因素独立预后+多因素独立预后
- 两个都<0.05,可以作为独立预后因素
- 输入文件为突变和生存时间合并的文件,临床数据(第六节的clinical)TMB值(第17节TMB.txt)
- 把临床数据都整理为两类,65岁为界限年龄,手动整理clinical表格,数值小的作为对照组;分级分期也要改
- 选择p值最小的基因,基因的突变文件和临床文件进行合并
HR风险比率HR与RR
22GSEA富集分析输入文件
- 查看哪些功能和哪些通路发生了变化
- 输入文件有固定的格式,表达数据文件cls+表型数据文件gct(突变与野生)
- 第八小节的突变矩阵,第四小节的表达数据(表达矩阵)
- 目标基因在样品中的表型,整理表达文件(正常样品不要)
23GSEA富集分析
- 第一列功能通路名称,第二列打分大于0 在突变;校正打分;p值;校正p值;FDR小于0.05得到显著通路
- 图形看峰值在那个组具有富集活跃
- GSEA需要下载软件,到达软件下载界面下载Windows版本,进入软件界面
- 进入软件把输入文件输入上传,点击运行,选GO,KEGG;M比W;模拟1000次;基因名称不需要转换
- index.html最终结果
24多GSEA富集图
- 横坐标基因,纵坐标打分,不同颜色不同通路;左边基因与突变组相关,右边基因和野生组相关
- 输入文件为index里面的
- 绘制两段图形
网友评论