美文网首页宏基因组
对于通过minimap2比对的方法鉴定微生物

对于通过minimap2比对的方法鉴定微生物

作者: 莫讠 | 来源:发表于2022-03-02 10:10 被阅读0次

整体思路是: 我目前已经清楚我的测出来的菌是属于大肠杆菌,但是不太清楚具体是属于哪一种strain,于是乎我想通过将所有NCBI里面大肠杆菌的基因组序列下载然后整合成一个基因组序列,然后再用我测出来的数据和这个基因组进行比对,找到我这个菌到底与那个strain的基因组序列match程度更高

合并基因组直接用cat命令就好,这里不再赘述

直接开始使用minimap2比对

minimap2 -ax map-ont ~/project/ONT/reference/Ecoil_refeq_complete_genome/ncbi-genomes-2021-12-25/all_Escherichia_coli_complete_genome.mmi --split-prefix ./temp_sam_/ ~/project/ONT/multi_sample_basecalling_gpu_sup/0_splict_barcode/barcode01/barcode01.fastq.gz > new_barcode01_alignment.sam

如果不加--split-prefix就会出现warnning

(nanopack) qianwj@ubuntu-NF5280M5:~/project/ONT/multi_sample_basecalling_gpu_sup/5_minimap_identify/barcode01 $ minimap2 -ax map-ont ~/project/ONT/reference/Ecoil_refeq_complete_genome/ncbi-genomes-2021-12-25/all_Escherichia_coli_complete_genome.mmi ~/project/ONT/multi_sample_basecalling_gpu_sup/0_splict_barcode/barcode01/barcode01.fastq.gz > new_barcode01_alignment.sam
[WARNING] For a multi-part index, no @SQ lines will be outputted. Please use --split-prefix.
[M::main::5.410*1.00] loaded/built the index for 2342 target sequence(s)
[M::mm_mapopt_update::5.576*1.00] mid_occ = 2391
[M::mm_idx_stat] kmer size: 15; skip: 10; is_hpc: 0; #seq: 2342
[M::mm_idx_stat::5.676*1.00] distinct minimizers: 9221189 (29.13% are singletons); average occurrences: 81.657; average spacing: 5.351; total length: 4029251866

比对结束之后是一个sam文件,怎么样看对于哪种基因组比对率最高呢?
主要参考的资料:https://hc1023.github.io/2019/09/07/linux-sam-bam/#!

可以将比对之后得到的sam文件直接进行samtools查看

grep -v '^@' new_barcode01_alignment.sam | cut -f 3 | sort | uniq -c > aln_info.txt

然后再排个序

sort -t $'\t' -k 1n aln_info.txt > sorted_genome.txt

一个师兄这边给的code是

samtools view -F260 test.bam|cut -f3|sort |uniq -c |sort -nr -k1 |head

首先这个是主要做的barcode01的数据

综合这两种最后得出来的代码是:

samtools view  -F260 new_barcode01_alignment.sam | cut -f3 | sort | uniq -c | sort -rn -k1 | head

比如对于我们测的这次的barcode01的数据最后比对出来的reads的情况

(base) qianwj@ubuntu-NF5280M5:~/project/ONT/multi_sample_basecalling_gpu_sup/5_minimap_identify/barcode01 $ samtools view  -F260 new_barcode01_alignment.sam | cut -f3 | sort | uniq -c | sort -rn -k1 | head
   1376 NZ_CP080246.1
   1275 NZ_CP035486.1
   1203 NZ_CP022686.1
    828 NZ_CP007799.1
    565 NZ_CP027340.1
    458 NZ_CP037449.1
    433 NZ_CP081010.1
    429 NZ_CP032085.1
    425 NZ_CP061206.1
    408 NZ_CP070041.1

以及对于我们这次的比对的barcode03的数据最后的reads分布情况

(base) qianwj@ubuntu-NF5280M5:~/project/ONT/multi_sample_basecalling_gpu_sup/5_minimap_identify/barcode03 $ head identify_info.txt
   1734 NZ_CP027340.1
   1360 NZ_CP025520.1
   1288 NZ_CP053607.1
   1274 NZ_CP047127.1
   1247 NZ_CP045741.1
   1160 NZ_CP017100.1
    734 NZ_CP080620.1
    710 NZ_CP081007.1
    631 NZ_CP081008.1
    628 NC_017625.1

接下来以此类推barcode02以及barcode03

awk按列求和

awk '{sum += $1};END {print sum}' test

如果要下载NCBI里面的数据的话

可以用这个链接:
https://ftp.ncbi.nlm.nih.gov/genomes/

相关文章

  • 对于通过minimap2比对的方法鉴定微生物

    整体思路是: 我目前已经清楚我的测出来的菌是属于大肠杆菌,但是不太清楚具体是属于哪一种strain,于是乎我想通过...

  • Minimap2比对随笔

    Minimap2是李恒大牛在2018年开发的针对于三代测序数据进行比对的工具,minimap2的优势是速度快,而且...

  • Racon三代数据纠错2021-01-19

    使用minimap2将三代数据比对到基因组,再使用racon纠错。做3次。 一、软件安装 minimap2安装:直...

  • TE的鉴定

    转座子鉴定方法 转座子的鉴定方法基本归于两大类:从头预测、基于同源比对。 从头预测算法 de novo 包括:基于...

  • 「R绘图」minimap2的PAF文件如何进行可视化?

    Minimap2是知名比对工具BWA的开发者Li Heng新开发的比对工具,它能够快速的将DNA或者mRNA序列比...

  • dotPlotly

    1.目的 使用 dotPlotly 可视化 minimap2 或者 mummer 得到的序列比对结果。 2.安装 ...

  • dotPlotly-Minimap2比对paf文件比对可视化

    最近进行基因组共线性分析,基因组比较大,利用nucmer比对报内存,改用minimap2进行比对分析,进行可视化发...

  • R conda 安装方式与 R包 安装

    dotPlotly 是两个R 脚本的项目,可以用来画PAF format (minimap2 比对软件的默认输出格...

  • 基因家族分析(2)鉴定

    基因家族成员鉴定的主要方法为序列相似性比对和功能结构域预测。以苦荞的MAPK基因家族的鉴定为例。 苦荞基因组数据处...

  • 鸡血石鉴定方法及拍卖市场价格

    鸡血石鉴定方法 鸡血石的鉴定方法有以下几点: 一、 鉴别重量,对于全假的鸡血石,重量较轻浮,而真鸡血石则较沉重,两...

网友评论

    本文标题:对于通过minimap2比对的方法鉴定微生物

    本文链接:https://www.haomeiwen.com/subject/hundrrtx.html