基因组Survey评估基因组的大小、杂合情况
在做一个基因组之前,需要了解这个物种的基因组大小、杂合情况以及其倍性等问题。
-
软件
生成Kmer频率表:jellyfish
基因组大小、重复、杂合度估计:genomescope - jellyfish使用
#软件下载
conda install jellyfish
准备jellyfish.sh (Kmer设置为19)
pre=Kmer_19
ls ~/species_name_*.clean.fq.gz | awk '{print "gzip -dc "$0 }' > generate.file
jellyfish count -t 4 -C -m 19 -s 1G -g generate.file -G 2 -o $pre
jellyfish histo -v -o $pre.histo $pre -t 4 -h 10000
jellyfish stats $pre -o $pre.stat
运行jellyfish.sh
sh jellyfish.sh
生成以下3个文件
Kmer_19.histo Kmer_19 Kmer_19.stat
结果查看
Kmer_19.histo
根据此结果确定峰值,本次结果发现第一列到25时,第二列数字由大变小
Kmer_19.stat
image.png
- gce使用
#下载
git clone https://github.com/BioInfoTools/GCE.git
#使用
~/tools/GCE/gce-1/gce -f Kmer_19.histo -c 25 -H 1 -g 14526486544 -M 10000 >gce.table 2>gce.log
-c 参数是根据文件Kmer_19.histo确定的峰值,-g参数是文件Kmer_19.stat中的Total值
- Genomescope使用
#下载
git clone https://github.com/schatzlab/genomescope.git
#使用
Rscript ~/genomescope/genomescope.R Kmer_19.histo 19 150 ./ 100000
19 是Kmer值,150是二代数据读长
image.png
该基因组大小为241M左右,非重复序列比例为59.9%,杂合度为0.726%
网友评论