美文网首页生信学习生信小白GEO&TCGA数据库挖掘
手把手学习TCGA数据库:SNP突变分析第六期

手把手学习TCGA数据库:SNP突变分析第六期

作者: 765f2ea50d22 | 来源:发表于2019-07-25 14:20 被阅读125次

    本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

    点击蓝字关注我们

    各位科研芝士的朋友,大家好,兜兜转转,我们已经陆续推出snp数据各种姿势下载,数据下载不是目的,下载的数据可以分析才是目的。

    那么我们今天就带着大家解锁下载的snp数据如何处理。既然是处理maf格式的文件,那我们今天的主角便是maftools工具。

    maftools也是目前处理snp数据用的最多的一个包。maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作,而且大部分都是一行代码出图,基本上不需要太高深的R语言知识。

    下面开启你的R界面,学习该包:

    01

    maftools安装,借助BiocManager安装,前提也是你要安装好BiocManager,命令如下:

    02

     加载该包:

    Ok,可以看到没有任何问题,这也表明,我们安装并成功加载该工具包

    03

    这里以急性髓性白血病为例子,我们读进去该包内置的maf文件:

    这一步便是对maf文件读取,采用read.maf函数,主要为maf参数,输入的为maf文件的路径,如上所示,我们发现我们的maf文件便成功读进去了。

    04

    对样本和基因进行总结统计,分别采用的是getSampleSummary函数和getGeneSummary函数,如下:

    可以看到上面存在不同的突变类型,分别为:

    missense_mutation:错义突变
    frame_shift_del:移码缺失突变
    nonsense_mutation:无义突变
    frame_shift_ins:移码插入突变
    splice_site:剪接位点
    in_frame_ins:框内插入
    in_frame_del:框内缺失
    translation_start_site:转录起始位点
    nonstop_mutation:终止密码子突变

    05

    对maf文件概览:

    结果如下,分别为变异分类,变异类型,SNV的类别,每个样本存在的突变数,突变总结以及最容易突变的前10个基因:

    06

    突变基因展示,比如展示突变频率最高的前10个基因,如下:

    采用oncoplot函数轻松绘制,结果如下:

    如果想绘制前20个突变基因呢?只需要将top参数后面的数字改为20即可,如下:

    结果如下:

    Ok,今天的教程主要是带大家采用maftools对maf文件进行处理,希望大家可以喜欢哦。

    关注微信公众号,后台回复:“snp”,获取代码

    相关文章

      网友评论

        本文标题:手把手学习TCGA数据库:SNP突变分析第六期

        本文链接:https://www.haomeiwen.com/subject/xplhrctx.html