美文网首页基因组组装群体遗传学基因组组装
生信 | 基因组组装实战(三):Kmer评估基因组

生信 | 基因组组装实战(三):Kmer评估基因组

作者: 生信卷王 | 来源:发表于2021-06-16 09:19 被阅读0次

写在前面

  • 以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.Kmer定义

Kmer定义
  • 杂合Kmer 杂合Kmer
  • 杂合Kmer峰 杂合Kmer峰
  • 重复Kmer峰 重复Kmer峰
  • 杂合变化模拟Kmer图 杂合变化模拟Kmer图

2.基因组大小预估方式

预估基因组大小公式
  • 也就是基因组大小=(基因切割的Kmer数目)/(主峰深度
  • 杂合和重复会影响统计,而一般的基于Kmer预估基因组的软件会对此做处理,让结果更贴近真实。

3.Kmer分析实战

3.1 下载安装gce软件
wget ftp://ftp.genomics.org.cn/pub/gce/gce-1.0.2.tar.gz
tar -zxvf gce-1.0.2.tar.gz
3.2 使用gce软件中的kmerfreq脚本切割kmer并统计频率深度表格
gce-1.0.2/kmerfreq -k 17 -t 10 -p freq list_of_clean
#-k 17:切割kmer的长度
#list_of_clean是质控后的文件名
#cat list_of_clean 
#/local_data1/pop_clean_1P.fastq.gz
#/local_data1/pop_clean_2P.fastq.gz
less freq.kmer.freq.stat|perl -ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' > freq.stat.2colum
#total kmer number, i.e. total number of kmer individuals
c=`less freq.kmer.freq.stat| grep "#Kmer indivdual number"|awk '{print $4}'`
echo $c
3.3 将上一行的$c也就是总的kmer种类数目和freq.stat.2colum也就是频率深度表格输入,得到基因组大小,杂合,重复信息 ,-H和-c的选择很重要
#纯合模式
gce -g $c -f freq.stat.2colum 2>gce.log
#杂合模式
gce -H 1 -g $c -c 60 -f freq.stat.2colum 2>heterozgyousgce.log

-g:kmer总数, 从kmerfreq分析结果获取
-f freq.stat.2colum:Kmer频率分布,从kmerfreq分析结果获取
-H 1:是否启动杂合模式(1是杂合模式,推算出杂合率, 0是非杂合模式没有杂合度)
-c 60: Kmer主峰深度,由gce自己选,或者根据情况自己选择(峰的选择很重要)

  • GCE输出结果说明
GCE输出结果说明
3.4 Kmer作图
c=`awk '$1==60' freq.stat.2colum|awk '{print $2}'`
echo $c
#选取合理的深度范围
head -n 500 freq.stat.2colum > freq.stat.2colum.500
#作图
Rscript distribution.r freq.stat.2colum.500 ./ $c
convert kmer_distribution.svg kmer_distribution.png
sz kmer_distribution.png
  • R作图脚本(上面的distribution.r)
library(ggplot2)
#1. data # 读入 深度-Kmer种类数频率 表格
args <- commandArgs()
file=args[6] 
a<-read.table(file,sep="\t")
#2. output
setwd(args[7])
#3. ylim 峰值大小,就是Kmer的种类数峰值大小,作为y的max值
peak=args[8]
peak<-as.numeric(peak)
#4. plot 作图,
svg("kmer_distribution.svg", width=10) 
ggplot(a,aes(x=V1,y=V2),col="red")+geom_line(color="green")+geom_point(color="red")+xlim(0,200)+ylim(0,peak)+xlab("
Depth of Kmer Species")+ylab("Frequency of Kmer Species")+theme_bw()+theme(axis.title=element_text(size=20))
dev.off()
  • 结果
Kmer图

总结

  • Survey分析内容回顾 Survey分析内容回顾
  • Tips Tips

相关文章

  • 测序组装与基因注释软件

    零、相关概念 一、数据质控控制 二、 kmer基因组评估 三、基因组拼接 第四步、评估组装结果 五、基因注释

  • 生信 | 基因组组装实战(三):Kmer评估基因组

    写在前面 以下内容均来自我在菲沙基因(Frasergen[http://www.frasergen.com/])暑...

  • Gerbil:支持GPU加速的kmer count工具

    欢迎关注"生信修炼手册"! 对于基因组组装而言,kmer count是最基础的分析内容之一,传统的kmer cou...

  • 基因组组装中的kmer究竟是何方神圣

    欢迎关注"生信修炼手册"! 在使用基因组组装相关软件时,我们经常会听到kmer这个名词。kmer究竟是什么东西呢?...

  • kmer

    基因组组装中的kmer究竟是何方神圣jellyfish:快速计算kmer分布Gerbil:支持GPU加速的kmer...

  • kmergenie报错

    组装之前想评估一下用多长的kmer合适,找到了kmergenie软件:它可以进行k-mer分析及基因组大小评估。具...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

  • Abyss:基于布隆过滤器的基因组组装软件

    主流的NGS基因组组装软件都是先将序列划分成kmer, 然后基于de Bruijn Graph图论算法,得到组装好...

  • 组装简介

    基因组 应该是 生信分析的基因组。一个好的基因组会让生信分析事半功倍。基因组组装简单的理解:借助工具进行 read...

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

网友评论

    本文标题:生信 | 基因组组装实战(三):Kmer评估基因组

    本文链接:https://www.haomeiwen.com/subject/xoezeltx.html