软件名:GEMINI
版本号:0.20.2-dev
1. 软件用途综述
GEMINI (GEnome MINIng)是一款基因组变异挖掘软件。该软件依赖强大的注释文件,故仅适用于人基因组分析。该软件在进行分析时是将遗传变异、表型、基因型及注释信息整合形成SQLite数据库,在此基础上进行种类多样的分析。改软件使用范围很广:家系分析(新生突变、常染色体显性遗传突变、常染色体银杏果遗传突变)、群体分析、成对样本肿瘤分析。
网址:http://gemini.readthedocs.io/en/latest/content/installation.html
2. 分析原理
该软件上游可以是VCF也可以使PED格式。该软件在进行分析时是将遗传变异、表型、基因型及注释信息整合形成SQLite数据库,在此基础上进行种类多样的分析。该软件自带很多数据库,如ENCODE tracks, UCSC tracks, OMIM, dbSNP, KEGG, HPRD等,整合了注释功能。
image.png3. 实现方法
3.1 使用示例
1)软件安装:
wget https://github.com/arq5x/gemini/raw/master/gemini/scripts/gemini_install.py
python gemini_install.py $tools $data
PATH=$tools/bin:$data/anaconda/bin:$PATH
$ gemini update --dataonly --extra cadd_score
$ gemini update --dataonly --extra gerp_bp
#其中$tools是软件安装路径,$data是软件数据库所在路径。
2)分析前准备:
GEMINI的上游输入文件为VCF或者ped文件。0.12.2以后的版本需要对VCF文件进行预处理,如分解多于两个allele的变异位点并用VT工具包进行格式化。该数据库也对将用于VCF注释的数据库文件进行了同样的处理,具体如下:
- If working with GATK VCFs, you need to correct the AD INFO tag definition to play nicely with vt.
- Decompose the original VCF such that variants with multiple alleles are expanded into distinct variant records; one record for each REF/ALT combination.
- Normalize the decomposed VCF so that variants are left aligned and represented using the most parsimonious alleles.
- Annotate with VEP or snpEff.
- bgzip and tabix.
流程如下:
*# setup*
VCF=/path/to/my.vcf
NORMVCF=/path/to/my.norm.vcf.gz
REF=/path/to/human.b37.fasta
SNPEFFJAR=/path/to/snpEff.jar
*# decompose, normalize and annotate VCF with snpEff.*
*# NOTE: can also swap snpEff with VEP*
zless $VCF **\**
| sed 's/ID=AD,Number=./ID=AD,Number=R/' **\**
| vt decompose -s - **\**
| vt normalize -r $REF - **\**
| java -Xmx4G -jar $SNPEFFJAR GRCh37.75 **\**
| bgzip -c > $NORMVCF
tabix -p vcf $NORMVCF
*# load the pre-processed VCF into GEMINI*
gemini load --cores 3 -t snpEff -v $NORMVCF $db
*# query away*
gemini query -q "select chrom, start, end, ref, alt, (gts).(*) from variants" **\**
--gt-filter "gt_types.mom == HET and \
gt_types.dad == HET and \
gt_types.kid == HOM_ALT" **\**
$db
3)使用示例
将待分析VCF导入 数据库:
gemini load -v snp.filter.vcf --cores 8 test.db
ROH分析:
gemini roh --min-snps 50 --min-gt-depth 20 --min-size 1000000 -s S138 test.db
3.2 程序说明
该程序可以输入文件可以是VCF格式(单样本或者群体均可)或者是ped格式,该程序可调用VEP 或者snpEff进行注释,故可接受未注释的文件,也可以接受注释后的文件,主要参数说明如下
-v 待分析VCF;
--cores 导入vcf时使用的线程数
Roh roh分析
3.3软件参数详细说明
gemini roh --min-snps 50 \ROH****包含的****SNP****数
--min-gt-depth 20 *样本的最低深度*
--min-size 1000000 \ROH****的最小片段长度
-s S138 *样本名*
roh_run.db \vcf****导入后的数据库名
3.4 结果展示及说明
chrom start end sample num_of_snps density_per_kb run_length_in_bp
chr2 233336080 234631638 S138 2583 1.9953 1295558
chr2 238341281 239522281 S138 2899 2.4555 1181000
注:结果是屏幕输出,中间还夹杂着log日志,如下图所示:
image.png
- chrom:染色体
- start:变异位点在染色体上的起始位置
- end:变异位点在染色体上的终止位置
- sample:样本名
- num_of_snps:roh内的snp数目
- density_per_kb:单位长度上的密度
- run_length_in_bp:roh长度
4. 注意事项
a) GEMINI solely supports human genetic variation mapped to build 37 (aka hg19) of the human genome.
b) GEMINI is very strict about adherence to VCF format 4.1.
c) For best performance, load and query GEMINI databases on the fastest hard drive to which you have access.
d) 软件安装时需要下载数据库,安装时自带月15G数据库,额外还需要下载两个数据库:CADD(39G)和GERP(7G)
e) 该软件注释需要VEP 或者snpEff
f) 该软件要输入VCF严格要求vcf4.1
g) 该软件在分析前需要将VCF导入SQL数据库,一个723M的vcf需要16h!
h) 该软件安装需要依赖
- Python 2.7.x
- git
- wget
- a working C / C++ compiler such as gcc
- zlib (including headers)
5. 软件相关文献引用
Paila U, Chapman BA, Kirchner R, Quinlan AR (2013)GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations.PLoS Comput Biol 9(7): e1003153. doi:10.1371/journal.pcbi.1003153
网友评论