生信 | 基因组组装实战（三）：Kmer评估基因组

作者: 生信卷王 | 来源:发表于2021-06-16 09:19 被阅读0次

测序组装与基因注释软件
生信 | 基因组组装实战（三）：Kmer评估基因组
Gerbil:支持GPU加速的kmer count工具
基因组组装中的kmer究竟是何方神圣
kmer
kmergenie报错
基因组结构注释
Abyss:基于布隆过滤器的基因组组装软件
组装简介
Bacteria genome denovo assembly

写在前面

以下内容均来自我在菲沙基因（Frasergen）暑期生信培训班上记录的课堂笔记

1.Kmer定义

Kmer定义

杂合Kmer 杂合Kmer
杂合Kmer峰杂合Kmer峰
重复Kmer峰重复Kmer峰
杂合变化模拟Kmer图杂合变化模拟Kmer图

2.基因组大小预估方式

预估基因组大小公式

也就是基因组大小=（基因切割的Kmer数目）/（主峰深度）
杂合和重复会影响统计，而一般的基于Kmer预估基因组的软件会对此做处理,让结果更贴近真实。

3.Kmer分析实战

软件：GCE

3.1 下载安装gce软件

wget ftp://ftp.genomics.org.cn/pub/gce/gce-1.0.2.tar.gz
tar -zxvf gce-1.0.2.tar.gz

3.2 使用gce软件中的kmerfreq脚本切割kmer并统计频率深度表格

gce-1.0.2/kmerfreq -k 17 -t 10 -p freq list_of_clean
#-k 17：切割kmer的长度
#list_of_clean是质控后的文件名
#cat list_of_clean 
#/local_data1/pop_clean_1P.fastq.gz
#/local_data1/pop_clean_2P.fastq.gz

less freq.kmer.freq.stat|perl -ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' > freq.stat.2colum
#total kmer number, i.e. total number of kmer individuals
c=`less freq.kmer.freq.stat| grep "#Kmer indivdual number"|awk '{print $4}'`
echo $c

3.3 将上一行的$c也就是总的kmer种类数目和freq.stat.2colum也就是频率深度表格输入，得到基因组大小，杂合，重复信息，-H和-c的选择很重要

#纯合模式
gce -g $c -f freq.stat.2colum 2>gce.log

#杂合模式
gce -H 1 -g $c -c 60 -f freq.stat.2colum 2>heterozgyousgce.log

-g：kmer总数, 从kmerfreq分析结果获取
-f freq.stat.2colum：Kmer频率分布，从kmerfreq分析结果获取
-H 1：是否启动杂合模式(1是杂合模式，推算出杂合率, 0是非杂合模式没有杂合度)
-c 60： Kmer主峰深度，由gce自己选，或者根据情况自己选择(峰的选择很重要)

GCE输出结果说明

GCE输出结果说明

3.4 Kmer作图

c=`awk '$1==60' freq.stat.2colum|awk '{print $2}'`
echo $c
#选取合理的深度范围
head -n 500 freq.stat.2colum > freq.stat.2colum.500
#作图
Rscript distribution.r freq.stat.2colum.500 ./ $c
convert kmer_distribution.svg kmer_distribution.png
sz kmer_distribution.png

R作图脚本（上面的distribution.r）

library(ggplot2)
#1. data # 读入 深度-Kmer种类数频率 表格
args <- commandArgs()
file=args[6] 
a<-read.table(file,sep="\t")
#2. output
setwd(args[7])
#3. ylim 峰值大小，就是Kmer的种类数峰值大小，作为y的max值
peak=args[8]
peak<-as.numeric(peak)
#4. plot 作图，
svg("kmer_distribution.svg", width=10) 
ggplot(a,aes(x=V1,y=V2),col="red")+geom_line(color="green")+geom_point(color="red")+xlim(0,200)+ylim(0,peak)+xlab("
Depth of Kmer Species")+ylab("Frequency of Kmer Species")+theme_bw()+theme(axis.title=element_text(size=20))
dev.off()

结果

Kmer图

总结

Survey分析内容回顾 Survey分析内容回顾
Tips Tips

测序组装与基因注释软件
零、相关概念一、数据质控控制二、 kmer基因组评估三、基因组拼接第四步、评估组装结果五、基因注释
生信 | 基因组组装实战（三）：Kmer评估基因组
写在前面以下内容均来自我在菲沙基因（Frasergen[http://www.frasergen.com/]）暑...
Gerbil:支持GPU加速的kmer count工具
欢迎关注"生信修炼手册"！对于基因组组装而言，kmer count是最基础的分析内容之一，传统的kmer cou...
基因组组装中的kmer究竟是何方神圣
欢迎关注"生信修炼手册"！在使用基因组组装相关软件时，我们经常会听到kmer这个名词。kmer究竟是什么东西呢？...
kmer
基因组组装中的kmer究竟是何方神圣jellyfish:快速计算kmer分布Gerbil:支持GPU加速的kmer...
kmergenie报错
组装之前想评估一下用多长的kmer合适，找到了kmergenie软件：它可以进行k-mer分析及基因组大小评估。具...
基因组结构注释
1. 组装基因组质控得到组装好的基因组序列之后，首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...
Abyss:基于布隆过滤器的基因组组装软件
主流的NGS基因组组装软件都是先将序列划分成kmer, 然后基于de Bruijn Graph图论算法，得到组装好...
组装简介
基因组应该是生信分析的基因组。一个好的基因组会让生信分析事半功倍。基因组组装简单的理解：借助工具进行 read...
Bacteria genome denovo assembly
细菌基因组组装金标准：GAGE-B 组装软件的选择细菌基因组组装的目标不同于大型生物基因组的组装，大型基因组组装...

生信 | 基因组组装实战（三）：Kmer评估基因组

写在前面

1.Kmer定义

2.基因组大小预估方式

3.Kmer分析实战

3.1 下载安装gce软件

3.2 使用gce软件中的kmerfreq脚本切割kmer并统计频率深度表格

3.3 将上一行的$c也就是总的kmer种类数目和freq.stat.2colum也就是频率深度表格输入，得到基因组大小，杂合，重复信息，-H和-c的选择很重要

3.4 Kmer作图

总结

相关文章

测序组装与基因注释软件

生信 | 基因组组装实战（三）：Kmer评估基因组

Gerbil:支持GPU加速的kmer count工具

基因组组装中的kmer究竟是何方神圣

kmer

kmergenie报错

基因组结构注释

Abyss:基于布隆过滤器的基因组组装软件

组装简介

Bacteria genome denovo assembly

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

基因组组装

群体遗传学

基因组组装

生物信息软件

基因组学

生物信息学

试读

基因

生信 | 基因组组装实战（三）：Kmer评估基因组

写在前面

1.Kmer定义

2.基因组大小预估方式

3.Kmer分析实战

3.1 下载安装gce软件

3.2 使用gce软件中的kmerfreq脚本切割kmer并统计频率深度表格

3.3 将上一行的$c也就是总的kmer种类数目和freq.stat.2colum也就是频率深度表格输入，得到基因组大小，杂合，重复信息 ，-H和-c的选择很重要

3.4 Kmer作图

总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

3.3 将上一行的$c也就是总的kmer种类数目和freq.stat.2colum也就是频率深度表格输入，得到基因组大小，杂合，重复信息，-H和-c的选择很重要