美文网首页生信工具
使用 EXCAVATOR2 对WES数据找CNV

使用 EXCAVATOR2 对WES数据找CNV

作者: 因地制宜的生信达人 | 来源:发表于2019-04-29 14:40 被阅读7次

使用 EXCAVATOR2 对WES数据找CNV

工具首发于2013,于2016进行了重大更新,文章列表:

cd ~/biosoft
# https://sourceforge.net/projects/excavator2tool/?source=navbar
mkdir EXCAVATOR2 &&  cd EXCAVATOR2 
wget https://sourceforge.net/projects/excavator2tool/files/EXCAVATOR2_Package_v1.1.2.tgz
tar zxvf EXCAVATOR2_Package_v1.1.2.tgz 
# 软件400多M,里面有个pdf说明书。

说明书实在是太复杂了。软件只是是一个压缩包,解压即可使用,里面自带了perl,r,shell脚本,比较方便使用,而比较麻烦的是需要系统有Hmisc这个R包。

> library(Hmisc)
Loading required package: lattice
Loading required package: survival
Loading required package: Formula
Loading required package: ggplot2
Use suppressPackageStartupMessages() to eliminate package startup
messages.

Attaching package: ‘Hmisc’

The following objects are masked from ‘package:base’:

    format.pval, round.POSIXt, trunc.POSIXt, units

>

有趣的是该软件需要R去编译两个fortran文件。

软件解析

软件也是3个步骤:

  1. TargetPerla.pl
  2. EXCAVATORDataPrepare.pl
  3. EXCAVATORDataAnalysis.pl

第一个步骤是 TargetPerla.pl, 处理一下参考基因组以及外显子坐标问题,需要五个参数:

  • the path to a source file (e.g. SourceTarget.txt), 是软件的配置文件:,
  • the path to the target input file,就是BED格式的坐标文件,需要前3列坐标
  • a “target name”,
  • the window size (i.e. 10000, 20000 or 500000)
  • the assembly (allowed options are: hg19 and hg38).

注意BED文件需要 sort -k1,1 -k2,2n *.bed | bedtools merge
作者给的例子是:perl TargetPerla.pl SourceTarget.txt myTarget.bed MyTarget_w50K 50000 hg19
软件本身也默认给了一些数据:

data/
├── [  74]  centromere
│   ├── [ 592]  CentromerePosition_hg19.txt
│   └── [ 592]  CentromerePosition_hg38.txt
├── [237M]  GCA_000001405.15_GRCh38.bw
├── [  28]  support
│   ├── [  65]  hg19
│   │   ├── [ 446]  ChromosomeCoordinate_HG19.txt
│   │   └── [ 23K]  GapHg19.UCSC.txt
│   └── [  65]  hg38
│       ├── [ 508]  ChromosomeCoordinate_HG38.txt
│       └── [ 43K]  GapHg38.UCSC.txt
├── [  28]  targets
│   ├── [   6]  hg19
│   └── [   6]  hg38
└── [216M]  ucsc.hg19.bw

其中附带的GCA_000001405.15_GRCh38.bw是来自于:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz 最新版是:GenBank assembly accession: GCA_000001405.27 (latest).

一般来说,我们会有自己的参考基因组,作者推荐用GEM suite (http://gemlibrary.sourceforge.net/),来把自己的参考基因组转换成bw文件。

然后再走第一步,会产生一个文件夹给后续分析使用。

第二个步骤是:EXCAVATORDataPrepare.pl 对自己的测序bam文件进行一定的计算处理

作者给的示例代码是:

perl EXCAVATORDataPrepare.pl ExperimentalFilePrepare.w50000.txt \
--processors 6 --target MyTarget_w50000 --assembly hg19

其中 --target 参数是第一步的结果文件夹。
而ExperimentalFilePrepare.w50000.txt这个就是配置文件,包含3列,分别是bam文件的全路径,以及每个样本的输出结果文件夹,以及样本名。

第三个步骤是: EXCAVATORDataAnalysis.pl 判断CNV状态

主要分成5种CNV状态: 2-copy deletion, 1-copy deletion, normal, 1-copy duplication and N-copy amplification).
作者给的示例代码是:

perl EXCAVATORDataAnalysis.pl ExperimentalFileAnalysis.w50K.txt \
--processors 6 --target MyTarget_w50K --assembly hg19 \
--output /.../OutEXCAVATOR2/Results_MyProject_w50K

还是需要自己手动制作配置文件,一般是配对肿瘤外显子数据找cnv,所以需要在配置文件的第一列指定每个样本属于T,还是C,然后是第几个样本。
参加教程的 Figure 3: A typical well-formatted input file for EXCAVATORDataAnalysis.pl module and “paired” mode.

可能会需要修改软件运行参数,修改的前提是真正理解它们了。

## Omega parameter for the HSLM algorithm ##
0.1
## Theta parameter (baseline probability m_i changes its value) for the HSLM algorithm ##
1e-5
## D_norm parameter for the HSLM algorithm ##
10e5
## Cellularity parameter for the FastCall Calling algorithm ##
1
## Threshold d for the truncated gaussian distribution of the FastCall Calling algorithm ##
0.5
## Threshold u for the truncated gaussian distribution of the FastCall Calling algorithm ##
0.35
## Segment with a number of exons smaller than a threshold are filtered out ##

实战

未完待续

相关文章

  • 使用 EXCAVATOR2 对WES数据找CNV

    使用 EXCAVATOR2 对WES数据找CNV 工具首发于2013,于2016进行了重大更新,文章列表: htt...

  • 使用cnvkit来对大批量wes样本找cnv

    cnvkit被设计来处理同一个批次的多个肿瘤配对样本测序情况,首先对所有的normal数据进行bin处理拿到背景值...

  • 两个CNV信息的合并后比较

    两个CNV信息的合并后比较 答读者问: 有朋友问到他对同一个样本SNP6.0芯片测到了CNV信息,也做了WES得到...

  • cnvCapSeq | 长片段捕获测序的CNV检测

    写在前面 目前针对二代测序数据开发的CNV检测方法,根据数据类型分为针对WES和WGS的方法,其中还有很多方法是针...

  • 【SCI复现】绘制CNV棒棒糖图

    前面给大家简单介绍了如何从TCGA数据库下载CNV(拷贝数变异数据),以及如何使用R语言来合并CNV数据。 今天我...

  • 2018-10-16

    生信学习笔记 转录组是测表达量 WES是测变异与否 WES数据分析 WES 全外显子测序 对SNP和indel体细...

  • 工具安装及试用总结:对WES数据做germline的CNV ca

    发现好多CNV calling 工具都好古早。。。安装和试用时关于版本的问题调试比较多。。。所以想把自己遇到的报错...

  • CNVnator

    CNVnator CNVnator是一款CNV检测软件,通过对全基因组测序数据进行分析来预测CNV。拷贝数变异(C...

  • TCGAbiolinks下载CNV数据存疑

    下载步骤 使用TCGAbiolinks下载BRCA CNV数据,发现 data.type不全面,仅含有三种 Cop...

  • R语言合并TCGA中CNV矩阵

    上一期给大家介绍了如何从TCGA数据库下载拷贝数变异(CNV)数据 ☞ 如何下载TCGA拷贝数变异(CNV)数据[...

网友评论

    本文标题:使用 EXCAVATOR2 对WES数据找CNV

    本文链接:https://www.haomeiwen.com/subject/vqpynqtx.html