零、相关概念
N50:将contig或scafold从长到短排列,达到基因组50%长度时的contig长度称为N50
kmer原理:https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/#
一、数据质控控制
1、软件
了解数据质量:
FastQC
安装:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
使用:https://www.jianshu.com/p/fe6af418a8bc
去接头和低质量reads过滤:
NGSQCToolkit,
Trimmomatic,
cutadapter、
fastq
二、 kmer基因组评估
基因组的大小,重复序列含量和复杂度
软件:jellyfish、ALLPATHS-LG/FindErrors、GCE(genome characteristics Estimation)
去除PCR重复:FastUniq、sequniq
reads修正:BLESS2, BFC, Musket
GenomeScope:https://www.jianshu.com/p/98f5a65be8b2
三、基因组拼接
二代组装软件:elvet, ABySS, AllPaths/AllPaths-LG, Discovar, SOAPdenovo, Minia, spades
kmer参数估计:KmerGenie
三代组装软件:
1、PacBio数据 MECAT2
nextDenovo:https://github.com/Nextomics/NextDenovo
nextPolish:https://github.com/Nextomics/NextPolish
2、Nanopore数据 NECAT
第四步、评估组装结果
软件:
BUSCO
安装:https://busco.ezlab.org/
使用:https://busco.ezlab.org/busco_userguide.html
Quast
contig N50, scaffold N50,
五、基因注释
软件:GENSCAN、Glimmer、FGeneSH、FGeneSB、FGeneSV、Generation、BCM Gene Finder、Genebuilder、genewis
augustus:http://bioinf.uni-greifswald.de/augustus/
基因预测软件:
augustus:http://bioinf.uni-greifswald.de/augustus/
fgene (来自molquest):
综合预测软件:
MAKER:http://gmod.org/wiki/MAKER
BRAKER:https://github.com/Gaius-Augustus/BRAKER
molquest下载:http://www.molquest.com/molquest.phtml?topic=downloads
网友评论