1. 最基本的三个需求
- 根据各种指标(某基因突变与否、融合与否,肿瘤分期等)把样本分组出来比较感兴趣基因的表现情况
- 看某个感兴趣基因的重要性(生存分析)
- 看某两个或某多个感兴趣基因的相关性、调控等
2. 针对 TCGA 的 somatic 突变画 oncoplot
- 每个癌种用 4 个软件找突变,得到的都是 maf 文件
- muse
- mutect
- somaticsniper
- varscan
- 用 maftools 包读入 maf 文件
- plotmafSummary 函数查看项目基本信息
- oncoplot 函数画图
3. 突变频谱
- 6 频谱:C>A, C>G, C>T, T>A, T>C, T>G
- 96 频谱:考虑突变位点上下游的碱基各有 4 种可能,6 x 4 x 4
- 从 maf 文件中获取需要的数据(5 列:样本名、染色体编号、起始坐标、突变前碱基、突变后碱基)后,用 mut.to.sigs.input 函数统计 96 频谱
- 然后用 whichSignatures 函数,通过非负矩阵分解的方法,找到每个样本的频谱是由哪几个 signature 组合起来的
- cosmic 数据库首页有 30 种 signature 的介绍
4. 根据基因类型挑选 lncRNA 的基因
- 首先要了解哪些类型的基因属于 lncRNA
- 可以下载 GTF 文件,自己制作 ensembl ID 和基因类型的对应关系
- 也可以在曾老师的 github 获取,文件名:human_geneinfo_genecode_v25.rda
友情宣传
- 全国巡讲全球听(买一得五),第二期 ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路
网友评论