美文网首页基因组组装
[基因组] 基于二代数据的Genome Survey

[基因组] 基于二代数据的Genome Survey

作者: 17号小行星 | 来源:发表于2021-01-09 13:37 被阅读0次

基因组Survey评估基因组的大小、杂合情况
在做一个基因组之前,需要了解这个物种的基因组大小、杂合情况以及其倍性等问题。

  • 软件
    生成Kmer频率表:jellyfish
    基因组大小、重复、杂合度估计:genomescope
  • jellyfish使用
#软件下载
conda install jellyfish

 准备jellyfish.sh (Kmer设置为19)

pre=Kmer_19

ls  ~/species_name_*.clean.fq.gz | awk  '{print "gzip -dc "$0 }' > generate.file
jellyfish count -t 4 -C -m 19 -s 1G  -g generate.file -G 2  -o $pre 
jellyfish histo -v -o $pre.histo $pre -t 4 -h 10000
jellyfish stats $pre -o $pre.stat

运行jellyfish.sh

sh jellyfish.sh

生成以下3个文件

Kmer_19.histo   Kmer_19       Kmer_19.stat 

结果查看
      Kmer_19.histo

image.png

根据此结果确定峰值,本次结果发现第一列到25时,第二列数字由大变小
      Kmer_19.stat


image.png
  • gce使用
#下载
git clone https://github.com/BioInfoTools/GCE.git
#使用
~/tools/GCE/gce-1/gce -f Kmer_19.histo -c 25 -H 1 -g 14526486544  -M 10000 >gce.table 2>gce.log

-c 参数是根据文件Kmer_19.histo确定的峰值,-g参数是文件Kmer_19.stat中的Total值

  • Genomescope使用
#下载
git clone https://github.com/schatzlab/genomescope.git
#使用
Rscript ~/genomescope/genomescope.R Kmer_19.histo 19 150 ./ 100000

19 是Kmer值,150是二代数据读长


image.png

该基因组大小为241M左右,非重复序列比例为59.9%,杂合度为0.726%

相关文章

网友评论

    本文标题:[基因组] 基于二代数据的Genome Survey

    本文链接:https://www.haomeiwen.com/subject/ifjcaktx.html