美文网首页测序注释收入即学习
MutSigCV进行突变负荷分析寻找Driver Gene

MutSigCV进行突变负荷分析寻找Driver Gene

作者: 小米羊爱学术 | 来源:发表于2019-03-05 09:44 被阅读0次

    本文的安装方法是有Matlab授权,运行MutSig源代码的方法。

    如果没有Matlab授权,可以

    http://www.mathworks.com/products/compiler/mcr/安装MatlabMCR

    还有一种在线进行MutSigCV分析的网站:

    http://genepattern.broadinstitute.org/gp/pages/index.jsf?lsid=MutSigCV 通过简单注册,就可以在线使用,运算速度还没有测试。

    安装环境

    Windows10

    软件的下载及安装

    1.安装Matlab环境

    MutSig是基于Matlab的一款程序,首先要安装Matlab。

    登陆智慧华中大的资源页面可以下载到有授权的Matlab,按操作指南去MathWorks的主页进行用户注册>下载Matlab3合一版本>安装。

    2.安装MutSigCV及下载必要文件

    进入https://software.broadinstitute.org/cancer/cga/mutsig_download下载最新版本“MutSigCV_1.41.zip”安装包>解压

    进入https://software.broadinstitute.org/cancer/cga/mutsig_run下载最新版本的5个依赖文件:

    genome reference sequence:   chr_files_hg18.zip    or   chr_files_hg19.zip (有可能需要翻墙下载)

    mutation_type_dictionary_file.txt

    exome_full192.coverage.txt.zip

    gene.covariates.txt (以上三个文件目前官网下载路径有错,可以从ftp://ftp.broadinstitute.org/pub/genepattern/example_files/MutSigCV_1.3/下载)

    其中

    mutation_type_dictionary_file.txt 当MAF文件没有effect列时是必须的,另外4个文件是当我们只有MAF文件的时候需要的,建议也同时下载。

    建议大家下载Example数据LUSC.MutSigCV.input.data.v1.0.zip,了解数据格式,并试运行。

    Input文件

    1.突变文件(必须):mutations.maf(Tab分隔,有表头)

    "gene" 列:突变所在的基因的名字  (也可以称为 "Hugo_Symbol")

    "patient" 列: 突变所在的病人的名字 (也可以被称为 "Tumor_Sample_Barcode")

    "effect" 列:突变在这个基因上所产生的作用类型:分为 "nonsilent" (蛋白质序列改变或可变剪切), "silent" (同义突变),或"noncoding" (内含子区或UTR区)"categ" ’列:突变分类.  MutSigCV依据突变所在的DNA序列将突变分成了7类,对于每一种分类,有不同的风险值. 如果用户不知道每一行的categ类型,从版本1.3开始程序可以自动计算,只需要用户提供Variant_Classification, Reference_Allele, and Tumor_Seq_Allele1+2这4列的信息即可

    1. CpG transitions

    2. CpG transversions

    3. C:G transitions

    4. C:G transversions

    5. A:T transitions

    6. A:T transversions

    7. null+indel mutations

    转换(transitions)和颠换(transversions)

    转换:嘌呤和嘌呤之间的替换,或嘧啶和嘧啶之间的替换。

    颠换:嘌呤和嘧啶之间的替换

    http://dridk.me/transition_transversion.html

    2.覆盖度文件(非必要):coverage.txt

    "gene"列: 基因名, 与突变文件的基因名列对应

    "effect"列: 分类为"silent", "nonsilent", or "noncoding"

    "categ"列: 与突变文件一致

    : number of sequenced bases for patient#1 in this gene and effect/categ bin

    : number of sequenced bases for patient#2 in this gene and effect/categ bin

    (etc.)

    但是这个文件通常不容易得到,因此MutSig提供了exome_full192.coverage.txt文件作为替换

    3.协变量文件(非必要):gene.covariates.txt

    "gene"列: 与上述两个文件一致.

    <covariate_name_1>:  the value of the first covariate for each gene

    <covariate_name_2>:  the value of the second covariate for each gene

    <covariate_name_3>:  the value of the third covariate for each gene

    etc.

    协变量被用来计算每对基因之间的距离,从而确定每个基因最近的邻居基因,以及局部背景突变率。

    Example中的协变量文件已经被证实可以用于多种肿瘤的分析。每个基因包含一下3个信息:  (1) global expression, derived from RNA-Seq data and summed across the 91 cell lines in the CCLE (Barretina et al.).  (2) DNA replication time (from Chen et al.).  (3) the HiC statistic, a measure of open vs. closed chromatin state (from Lieberman-Aiden et al.).

    软件运行

    1.如果有完整的Input文件:

    将上述3个文件及mutation_type_dictionary_file.txt放在MutSigCV.m所在的文件夹中

    双击

    MutSigCV.m启动Matlab

    >>MutSigCV('mutations.maf','coverage.txt','covariates.txt','output.txt')

    2.如果只有MAF文件:

    将MAF文件,及genome reference sequence(chr_files_hg18.zip    or   chr_files_hg19.zip),mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip和gene.covariates.txt文件放在MutSigCV.m所在的文件夹中

    双击MutSigCV.m启动Matlab

    >>MutSigCV('my_mutations.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg19')

    结果解读

    output.txt.sig_genes.txt文件中包含了Driver Gene,从P值由小到大排列。

    TCGA数据实战

    从TCGA上下载MAF的open的文件,文件内包括四种MAF文件:mutect,varscan,somaticsniper,muse,不同的算法和统计模型用于检测体细胞突变,目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 。

    1. 下载chr_files_hg38

    如果有需要这部分hg38的文件,可以找我要完整版,不需要再下载和修改了。

    TCGA上下载的数据是GRCh38(hg38)版本的,而MutSig的官网上没有提供hg38的chr_file,所以我们从https://www.ncbi.nlm.nih.gov/grc/human/data?asm=GRCh38上下载hg38的每个染色体的序列,例如点击

    NC_000001.11,进入NCBI页面后,点击Send To,选择:Compelete Record-File-FASTA保存,保存后的文件命名为“chr1.txt",本地打开该文件,去除>开头第一行信息,并去除文件中所有换行符(替换\n为空)。将22+XY染色体的文件都保存于子文件夹”chr_files_hg38“中。

    2. 将mutect文件放入MutSigCV.m所在文件夹下

    3. 确保mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip ,gene.covariates.txt也都在

    4. 修改MutSigCV.m源文件

    原版本有bug,要做如下修改 #在Ubuntu系统中似乎不需要修改:

    360行附近:

    f2 = regexprep(uchr,'^(.*)$',[chr_files_directory '/chr$1.txt']);

    f3 = regexprep(uchr,'^(.*)$','chr$1.txt');  #添加f3变量

    chr_file_available = ismember(f3,f1); #将f2改为f3

    5. 运行程序

    >>MutSigCV('TCGA_ESCA_mutect.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg38')

    相关文章

      网友评论

        本文标题:MutSigCV进行突变负荷分析寻找Driver Gene

        本文链接:https://www.haomeiwen.com/subject/xcwzuqtx.html