不同基因组版本的位置(坐标)对应关系,在数据分析环节经常用到。
位置对应关系通常通过比对来获取,而信息一般存储在chain文件中。
对于人类、小鼠等模式生物而言,UCSC已经提供了不同版本的chain文件。
对于非模式生物,往往需要先自己制作chian文件,再通过ncbi的remap,UCSC的lifeover和crossmap等工具进行坐标转换。
UCSC官网也提供了制作chain文件的方法。但需要parasol集群环境(需要root)。这一步的设置往往难倒了不少人,尤其是ssh localhost。
最近找了一个新工具transanno,结合minimap2比对,30分钟内就能创建一个新的chain文件,使用起来也非常简单。感谢开源,感谢李恒。
# minimap2比对
minimap2 -cx asm5 --cs QUERY_FASTA.fa REFERENCE_FASTA.fa > PAF_FILE.paf
# transanno创建chain文件
transanno minimap2chain PAF_FILE.paf --output CHAINFILE.chain
后续选择相应工具即可进行坐标转换,也可以继续用transanno,转换vcf、bed、gff/gtf(仅限genecode/Ensembl格式)等格式文件。
操作失败的教程:
https://www.dazhuanlan.com/hokit/topics/1370056
https://www.jianshu.com/p/825993c9b03a
网友评论