欢迎关注"生信修炼手册"!
HLAminer软件可以同时对HlA I型基因和II 型基因进行分型,但是分型结果中不可避免的会存在假阳性的结果。为了提高分型结果的准确性,不同的研究团队都在开发新的工具和算法,Opitype是一款专门针对HLA I型基因进行分型的软件,可以提供精确的4位分型结果。
利用测试数据集,与HLAminer, HLAForest 等软件进行比较,结果如下
从图中可以看到,不论是基因组的数据,还是转录组的数据,opitype提供的4位分型结果的准确率都高于HLAminer和HLAforest。
github 地址如下:
https://github.com/FRED-2/OptiType
如果从源代码进行安装,费时费力,所以官方提供了docker 镜像,直接安装docker 镜像就可以了,代码如下
docker pull fred2/optitype
opitype的使用分成以下两步:
1. 采用 razers3 比对参考序列数据库
razers
是一款比对工具,可以从原始的测序数据中筛选出属于HLA基因的reads。opitype利用HLA I型基因exon2到exon3的DNA序列构建了一个参考数据库,如果reads能够比对到这个参考数据库,认为这些reads来自与HLA基因。
用法如下
docker run -v /home:/home --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0 -o /home/R1.bam /home/OptiType/data/hla_reference_dna.fasta /home/R1.fastq
docker run -v /home:/home --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0 -o /home/R2.bam /home/OptiType/data/hla_reference_dna.fasta /home/R2.fastq
这里需要注意docker镜像用法,一定要添加entrypoint
参数,指定运行的程序为razers3
; 如果不指定这个参数,容器默认运行OptiTypePipeline.py
。
比对会生成一个bam文件,在这个bam文件中,只保存了比对上的序列,直接利用samtools挑选出比对上的reads就可以了,用法如下
samtools fastq R1.bam > R1_fished.fastq
samtools fastq R2.bam > R2_fished.fastq
由于生成的bam文件第二列的flag的值都为0,没有实际意义,所以不论是单端测序还是双端测序的数据, 都只能对fastq文件单独处理。
2. 进行基因分型
调用OptiTypePipeline.py
进行基因分型,用法如下
docker run -v /home:/home fred2/optitype -i /home/R1_fished.fastq /home/R2_fished.fastq --dna -v -o /home/test/
在结果目录会生成如下两个文件:
├── 2018_07_19_02_29_14_coverage_plot.pdf
└── 2018_07_19_02_29_14_result.tsv
文件名前的日期是当前日期,后缀分别为pdf
和tsv
。PDF文件示意如下
描述了每个Allel的比对情况。TSV文件的内容如下
A1 A2 B1 B2 C1 C2 Reads Objective
A*01:01 A*01:01 B*08:01 B*57:01 C*07:01 C*06:02 1156.0 1135.192
保存的是分型结果,由于人是二倍体,所以每个基因会给出两个Allel的结果。
扫描关注微信号,更多精彩内容等着你!
网友评论