美文网首页微生物信息学
宏基因组分箱(二)Metabat2分箱实战

宏基因组分箱(二)Metabat2分箱实战

作者: 胡童远 | 来源:发表于2019-10-20 16:52 被阅读0次

导读

上一篇:宏基因组分箱(一)Megahit组装和QUAST质量评价。分箱工具有很多,我为什么选择Metabat2呢?请见:宏基因组最佳分箱工具Metabat2。下面是Metabat2分箱的步骤:1. 建索引;2. 比对;3. sam2bam;4. bam2sorted.bam;5. 计算contig深度;6. 分箱;7. 结果。

一、建索引

使用bowtie2的bowte2-build功能给测序数据组装得到的contig建索引文件,用于比对。

time bowtie2-build -f final.contigs.fa final --threads 16

-f:输入文件
[final]:输出文件前缀
--threads:线程
time:计时

二、比对

使用bowtie2比对测序数据和contig。

time bowtie2 -1 ALL_READS_1.fastq -2 ALL_READS_2.fastq -p 16 -x final -S final.sam

-1:上有序列
-2:下游序列
-p:处理器
-x:索引文件前缀
-S:比对结果sam文件
time:计时

三、格式转换:SAM > BAM

使用samtools将sam文件转换成bam文件。

time samtools view -@ 16 -b -S final.sam -o final.bam

-@:线程
-b:输出格式为BAM
-S:自动检测输入格式
-o:输出文件
time:计时

四、BAM排序

使用samtools排序bam文件获得sorted.bam文件。

time samtools sort -@ 16 -l 9 -O BAM final.bam -o final.sorted.bam

-@:线程
-l:压缩等级0-9,0是不压缩,9最高
-O:输出格式可选SAM, BAM, CRAM
-o:输出文件
time:计时

五、计算contig深度

以上一步得到的sorted.bam文件为输入,用Metabat2中自带的jgi_summarize_bam_contig_depths程序计算contig深度。

time jgi_summarize_bam_contig_depths --outputDepth final.depth.txt final.sorted.bam

--outputDepth:输出文件
[final.sorted.bam]:输入文件

六、分箱

time metabat2 -m 1500 -t 16 -i final.contigs.fa -a final.depth.txt -o all -v

-m:最小contig长度
-t:线程
-i:contig文件
-a:contig深度
-o:输出文件前缀
-v:啰嗦模式
time:计时

七、分箱结果

分箱其实就是利用核苷酸频率和丰度模式将序列组装得到的contig打包分类的过程,所以分箱结果就是一堆contig的fasta文件如下:

-rw-rw-r-- 1 cheng WST 3489348 9月  26 17:05 all.10.fa
-rw-rw-r-- 1 cheng WST  429510 9月  26 17:05 all.11.fa
-rw-rw-r-- 1 cheng WST  268311 9月  26 17:05 all.12.fa
-rw-rw-r-- 1 cheng WST 1588561 9月  26 17:05 all.13.fa
-rw-rw-r-- 1 cheng WST  388664 9月  26 17:05 all.14.fa
-rw-rw-r-- 1 cheng WST 1499768 9月  26 17:05 all.15.fa
-rw-rw-r-- 1 cheng WST  546539 9月  26 17:05 all.16.fa
-rw-rw-r-- 1 cheng WST  634631 9月  26 17:05 all.17.fa
-rw-rw-r-- 1 cheng WST 1051141 9月  26 17:05 all.18.fa
-rw-rw-r-- 1 cheng WST 2150085 9月  26 17:05 all.1.fa
-rw-rw-r-- 1 cheng WST  237183 9月  26 17:05 all.2.fa
-rw-rw-r-- 1 cheng WST 2181418 9月  26 17:05 all.3.fa
-rw-rw-r-- 1 cheng WST  982074 9月  26 17:05 all.4.fa
-rw-rw-r-- 1 cheng WST 1716234 9月  26 17:05 all.5.fa
-rw-rw-r-- 1 cheng WST 1649397 9月  26 17:05 all.6.fa
-rw-rw-r-- 1 cheng WST 1759432 9月  26 17:05 all.7.fa
-rw-rw-r-- 1 cheng WST 1386934 9月  26 17:05 all.8.fa
-rw-rw-r-- 1 cheng WST  487116 9月  26 17:05 all.9.fa

打开一个看看:

less -S all.1.fa
# 如下:

>k93_1756
AAATTCTCTCTTAAAGTTTAACTTTACATTAATTGTTTCTTTACTCTAACAAAGTGCAAA
TATATTAATAAAACTGAAACGAACAACTATTTTATTGAAAAAACCTTGTAAATCTATCAA
TTTGTTAATTAAACATGCCACTTTATGCTTAATAACAGATTTTTCACACTTAAAAAACCT
>k93_2772
GAGCGTGGTAACGAGATGAGCCAGGTTCTTGAGGAATTCTCAGAGCTTATTGACCCAAAG

相关阅读:
宏基因组分箱(一)Megahit组装和QUAST质量评价

\color{green}{😀😀原创文章,码字不易,转载请注明出处😀😀}

相关文章

  • metawrap

    Microbiome:宏基因组分箱流程MetaWRAP简介 MetaWRAP分箱流程实战和结果解读

  • 宏基因组分箱(二)Metabat2分箱实战

    导读 上一篇:宏基因组分箱(一)Megahit组装和QUAST质量评价。分箱工具有很多,我为什么选择Metabat...

  • 宏基因组分箱(一)Megahit组装和QUAST质量评价

    导读 从本篇开始,我将介绍宏基因组分箱的生物信息分析方法。若想了解更多宏基因组分箱的知识请阅读:1. 宏基因组分箱...

  • 数据预处理之分箱操作

    分箱离散化 一种无监督离散化方法 分为两类,1 等距离分箱 2 等频度分箱 等距离分箱即等宽度分箱,设有K个空间,...

  • 机器学习第二课_数据预处理

    数值型特征分箱(数据离散化) 2.1 无监督分箱法 等距分箱 import pandas as pddf = pd...

  • 快速分箱方法

    python 分箱的一种方法 2018.08.02 R语言中有smbining可以进行最优分箱,python中分箱...

  • 等宽分箱与等深分箱

    数据处理中的等宽分箱与等深分箱 等宽分箱每组数据的上边界与下边界差值一样 等深分箱每组数据中包含的条目数近乎一样

  • 宏基因组分箱课程

    技术贴 | 宏基因组分箱Binning(一)介绍和报告展示[https://mp.weixin.qq.com/s/...

  • 风控建模之woe分箱

    一、自动分箱-粗分箱方法介绍 约定初始化分箱的个数为10。定义:,代表箱子。 1.1 iv 算法-1.初始化10箱...

  • 评分卡模型

    逻辑回归 评分卡模型https://zhuanlan.zhihu.com/p/36539125总结: 数据分箱分箱...

网友评论

    本文标题:宏基因组分箱(二)Metabat2分箱实战

    本文链接:https://www.haomeiwen.com/subject/pfcamctx.html