美文网首页生信小白GEO&TCGA数据库挖掘BioStat
手把手学习TCGA数据库:SNP突变分析第三期

手把手学习TCGA数据库:SNP突变分析第三期

作者: 765f2ea50d22 | 来源:发表于2019-07-25 14:34 被阅读36次

本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

点击蓝字关注我们

各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载

TCGA网址亮出:https://portal.gdc.cancer.gov/ 


我们点击Repository,进入下面的界面:


接着我们点击case,选择我们需要研究的癌症,比如喉癌Larynx


同时,我们可以在右侧方框看到我们每次点击的内容,记录了我们挑选的历史,接着我们点击Files,选择Simple Nucleotide Variation,即代表SNV,界面如下:


在Data Type里面存在四个数据类型,你以为你随便可以下载吗?哈哈,too young,比如上面我们选择了Aggregated Somatic Mutation,我们却发现这些文件却被写保护了,不支持下载,实际上我们唯一可以下载的便是Masked Somatic Mutation,这个时候我们点击进去,便会出现下面的界面:



在2中我们可以看到变为open了,代表数据支持下载了,恭喜你可以看到数据下载了,接着我们需要点击Workflow Type,进入如下界面:


可以在Workflow Type里面存在四个选项,MuSE Variant Aggregation and Masking,MuTect2 Variant Aggregation and Masking,SomaticSniper Variant Aggregation and Masking,VarScan2 Variant Aggregation and Masking,分别代表用四个软件计算出来的SNP的信息,四个软件分别采用四个不同的流程来处理数据计算得出的SNP信息,我们可以选择一种进行下载,比如我们选择VarScan2 Variant Aggregation and Masking


在Data Format里面只有一个MAF格式文件,代表我们下载的是maf格式的突变信息,接着下载就可以了。


点击download即可。

我们一鼓作气,继续分享关于TCGA_SNP下载的知识,还记得我们之前推文说过的,在TCGA的武林里,总有一个出类拔萃的佼佼者的神包——TCGAbiolinks,链接:

手把手教你用R语言下载TCGA数据库:TCGAbiolinks

复习一下该包TCGAbiolinks,它是GDC官方推荐了一款第三方工具,通过GDC官方API下载数据,保证数据的及时性和准确性,同时也提供数据整理、聚类分析、差异分析、富集分析等功能。

首先是TCGAbiolinks的安装和加载,TCGAbiolinks对于R的版本要求较高,建议在3.4以上的版本进行

下面开启你的R界面,学习该包:

1.TCGAbiolinks安装,借助BiocManager安装,前提也是你要安装好BiocManager,命令如下

2.加载该包


Ok,可以看到没有任何问题,这也表明,我们安装并成功加载该工具包

再用该工具包下载突变数据的时候,可以支持hg38和hg19,两种形式的突变数据下载

3. 首先基于hg38下载数据,这里以头颈癌为例子,首先要定义头颈癌在TCGA里面的ID信息,为TCGA-HNSC,首先建立搜索索引,这里建立的便是MAF文件的索引:


在pipeline便可以选择四种流程进行下载,比如上面选择muse,除此之外,还可以选择varscan2,somaticsniper,mutect2等


轻松便可以下载了hg38的muf文件。

4.hg19的maf文件,便和我们下载RNAseq似曾相识,使用 GDCquery, GDCdownload and GDCpreprare 来下载

5.建立索引


这一步十分重要是后续操作的关键,需要输入四个参数,分别是project 代表项目ID, data.category参数需要我们输入数据集类型,比如我们下载的是SNV数据,就是写入"Simple nucleotide variation",data.type是代表输入的为Simple somatic mutation,另外一个注意的点便是access代表权限的问题,我们选择open

6.建立好索引,下一步便进行数据下载,命令及其简单,使用GDCdownload命令完成下载:


可以看到266兆,一次性下载了4套流程的maf文件

Ok,今天的教程主要是带大家体验基于在线网站及R语言对TCGA的SNP数据下载,下期我们继续推出SNP数据下载的其他方式。



相关文章

网友评论

    本文标题:手把手学习TCGA数据库:SNP突变分析第三期

    本文链接:https://www.haomeiwen.com/subject/iqdhrctx.html