美文网首页基因组组装基因组
生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LA

生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LA

作者: 生信卷王 | 来源:发表于2021-06-17 09:52 被阅读0次

写在前面

  • 以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.基因组组装指标评估

  • 为什么要进行质量评估?
    答:动植物基因组de novo工作,其组装指标的好坏直接影响着整个基因组的质量。
  • 最主要的指标是什么?
    答:基因组组装结果评估,contigN50和scaffoldN50是第一指标。
    contig/ scaffoldN50:将contig/scaffold长度从长到短迚行排序并累加,当累加和达contig/scaffold总长度的50%的时候,最后参不加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好
  • N50指标高就意味着组装结果就一定可靠吗?
    答: 不一定!将一些不相关的reads或者contig错误的连接为scaffold,一样可以达到很高 scaffold N50
  • N50统计软件gnx下载与编译
#Download git repository 
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin 
javac -d bin/ src/uk/ac/ebi/gnx/* 
# 没装ant,请安装,链接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因组名
  • 软件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示统计N50

2.序列一致性评估

  • 序列一致性:是指将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。
  • 为了评估组装的完整性和测序覆盖的均匀性,使用比对工具minimap2(默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性。
  • 软件:minimap2
  • 使用conda安装
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
  • 第一步:使用比对工具minimap2(默认参数)比对回组装好的基因组
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
  • 第二步:基于比对结果统计reads的比对率、基因组的覆盖度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info

3.保守性基因评估

  • BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源数据库构建主要的系统迚化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集,通过同源基因数据库从基因完整度层面上评估基因组的组装质量。
  • BUSCO根据OrthoDB数据库,针对几个大的迚化分支分别构建了单拷贝基因集。在得到某物种组装后的基因组戒者转录本序列后,可以将组装结果不该物种所属迚化分支的基因集中的保守序列迚行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分戒者丌包含等情况给出结果。
  • 对于基因组,BUSCO首先调用Augustus软件迚行基因结构预测,再使用HMMER3比对参考基因集;对于转录本,则在鉴定出最长读码框架之后,再使用HMMER3比对参考基因集。最终根据比对上的序列比例、完整性等,评估组装结果的准确性和完整性。
  • BUSCO官网:https://busco.ezlab.org 文档:https://busco.ezlab.org/busco_userguide.html
  • OrthoDB数据库官网:https://www.orthodb.org/
  • 保守性基因评估软件安装
#需要构建conda的python3环境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
  • 如果使用conda安装成功(安装不成功考虑使用git下载,上方文档中有),那么就执行下载数据库文件。例如下载植物的BUSCO的数据库(对着需要下载的类群的图片右键->复制链接地址,之后就得到了下载链接,然后在命令行使用wget之类的下载命令下载),比如下面我下载的是植物相关的,我就下载的植物类群。
    2022年5月22日更新:现在数据集在该链接下载:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/ 
cd ~/database/BUSCO/
# 下载,增加--no-check-certificate,否则可能下载不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解压文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
  • 在安装好软件之后$PATH/busco/config/之中并没有config.ini文件,只有一个config.ini_default文件,可以把里面的内容复制下来
cp config.ini_default config.ini
  • 将config.ini文件中的out_path = ./workdir 前面加上\color{red}{\#},因为这个工具的输出路径有时候会出错,所以干脆将它注释掉,之后假如运行busco之后,输出的路径就是你之前cd到的路径
  • BUSCO的使用
busco -i [组装的文件.fasta] -l [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
参数说明

4.其他评估方法

准确性评估 完整性评估 长末端重复序列评估基因组完整度

相关文章

  • 生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LA

    写在前面 以下内容均来自我在菲沙基因(Frasergen[http://www.frasergen.com/])暑...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

  • 组装简介

    基因组 应该是 生信分析的基因组。一个好的基因组会让生信分析事半功倍。基因组组装简单的理解:借助工具进行 read...

  • 基因组组装----SOAPdenovo2

    1.基因组组装的流程 基因组组装的大概流程如下: (1) 测序得到raw reads序列。 (2) Reads质量...

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

  • 二代数据组装叶绿体基因组

    与核基因组相比,细胞器基因组相对来说,更为保守,并且序列较短,更加易于组装,仅仅根据二代测序reads即可进行组装...

  • 「BioNano系列」如何进行cmap之间的比对

    BioNano以cmap格式存放光学图谱,为了评估基因组的组装质量或者了解光学图谱中冗余情况(高杂合基因组组装结果...

  • BUSCO 安装备忘

    简介 BUSCO是一款对转录组和基因组组装质量进行评估的软件,它可以利用相近的物种的保守序列与组装的结果进行比对,...

  • 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列...

  • 基因组 组装教程 (T2T)

    导读 本文将介绍T2T基因组,并提供一份基因组组装的资料,其中包含:基因组组装数据和组装策略介绍;染色体水平基因组...

网友评论

    本文标题:生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LA

    本文链接:https://www.haomeiwen.com/subject/dgrtyltx.html