美文网首页
2023-07-20 三代数据的比对 Blasr(需补充)

2023-07-20 三代数据的比对 Blasr(需补充)

作者: 麦冬花儿 | 来源:发表于2023-08-08 11:35 被阅读0次

该软件来自picbio官网
准备文件

mkdir -p /home/train/06.reads_aligment/blasr
cd /home/train/06.reads_aligment/blasr
ln -s ~/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta genome.fasta
ln -s ~/04.genome_assembling/Canu/Malassezia_sympodialis/subreads.fasta ./

PATH=/opt/biosoft/miniconda3_for_pbbioconda/bin/:$PATH

开始运行

blasr subreads.fasta genome.fasta --header -m 5 --out blasr.out5 --minPctAccuracy 70 --nproc 8 --stride 10
[train@MiWiFi-R3P-srv blasr]$ head -n 2 blasr.out5 
qName qLength qStart qEnd qStrand tName tLength tStart tEnd tStrand score numMatch numMismatch numIns numDel mapQV qAlignedSeq matchPattern tAlignedSeq
m54086_170204_081430/5112079/3551_4400/0_849 849 321 623 +  MS01Contig08 440595 301851 302159 + -878 252 37 13 19 254 TACCCGTTCGAGAA-GG-CCGCTGAGCCCTCGCTTCCGTGGGGAGCAATGCGCTGGCGCCGGTACCC-ATCCGG-GAGGAGCGTTGCATTGCCTGCAAGCT-CGCG-GGCCATCTGCCC--CGCCCAGGCCATCACCATCGAG-GCTGAG-CCCAAAGAGCTGATGGCAGC-CGCCGAACCACCCGCTAATGACATCGACATGAGACAAGTGCATCTACTGCGGCTTCTTCCA-G-GTC-TGTCCCGTGGATGCCATCGTCAG-GCCCCA-ACG-TTGAGTTCTCCACGGAGACCCATGA-GAGC-GCGGTACAACAAGGA ||||||||||||||*||*|||||||||||*||||||||*||*||||*|||||||*||||||*|||||*|*|*||*||||||||*|||||*||*||||||||**|||*||||||||||||**|||*|**||||||||*||||||*||*|||*|||***|*||*||*|||*||*||*||*||*|||||||*|*||*||||||||||**|||||||||||||||*|||*|*|*|||*|*|*|*||*|||||||||||*||||||*|*|*|*||*|||*|*||||||*|*||*|||||||**||*||||**|*|||||||||||| TACCCGTTCGAGAAGGGCCCGCTGAGCCCCCGCTTCCGCGGCGAGC-ATGCGCT-GCGCCGCTACCCGA-CGGGCGAGGAGCGCTGCATCGCGTGCAAGCTGTGCGAGGCCATCTGCCCGGCGCTC--GCCATCACGATCGAGAGC-GAGACCC---GCGCGGACGGC-GCGCGGCGCACGACCCGCT-ACGATATCGACATGA-CCAAGTGCATCTACTGTGGCATGTGCCAGGAGGCGTGCCCCGTGGATGCGATCGTC-GAGACGCAGACGCTCGAGTTCGCTACCGAGACCCGCGAGGAGCTTCTGTACAACAAGGA
[train@MiWiFi-R3P-srv blasr]$ 

统计有多少条序列能比对上去

[train@MiWiFi-R3P-srv blasr]$ cut -d " " -f 1 blasr.out5 | uniq | wc -l
5629
mapping rate = 5629/6000

统计每行的错误率

需补充

统计整体的错误率

[train@MiWiFi-R3P-srv blasr]$ ls
blasr.out5  genome.fasta  subreads.fasta
[train@MiWiFi-R3P-srv blasr]$ perl -e '<>; while (<>) { @_ = split /\s+/; $length = $_[3] - $_[2]; $error_ratio = 1 - $_[11] / $length; push @er,$error_ratio if $length >= 1000; } @er = sort {$a <=> $b} @er; print "$er[@er/2]\n";' blasr.out5
0.0902698593690612

小技巧:截取结果文件的碱基序列

需补充

小技巧:截取subreads的1000条序列

[train@MiWiFi-R3P-srv blasr]$ perl -e 'while (<>) { if (m/^>/) { $num ++; last if $num > 1000; } print }' subreads.fasta | grep ">" | wc -l
1000

相关文章

  • Racon三代数据纠错2021-01-19

    使用minimap2将三代数据比对到基因组,再使用racon纠错。做3次。 一、软件安装 minimap2安装:直...

  • 三代测序数据比对工具lra

    论文 lra: A long read aligner for sequences and contigs htt...

  • Minimap2比对随笔

    Minimap2是李恒大牛在2018年开发的针对于三代测序数据进行比对的工具,minimap2的优势是速度快,而且...

  • 三代测序数据组装(补充)

    nextdenovo nextdenovo 最初开发用于nanopore 数据拼接,也支持pacbio CLR 和...

  • 数据比对

    生物学问题:比较两个序列的相似度 目的:通过序列的相似性,推测结构和功能的联系 蛋白质测序结果图解读: 竖线:相同...

  • 数据比对。

    增值税金额与各项附加费比对是否一致? 教育附加费与水利建设基金是否做到了匹配到 理论销售收入与公司实际销售收入是...

  • 三代比对软件-ngmlr

    软件名:ngmlr 版本号:ngmlr 0.2.6 1. 软件用途综述 NextGenMap-LR(ngmlr)主...

  • 【ATAC-Seq 实战】三、比对与Peaks Calling

    这里是佳奥!我们继续clean数据的比对。 1 使用bowtie2进行比对 用bowtie2进行比对和统计比对率,...

  • 【转录组04】参考基因组

    使用两个软件对fq数据进行比对,得到比对文件sam/bam,并探索比对结果。三个常用参考基因组数据库:Ensemb...

  • pandas 数据比对

    问题:df1与另一个乱序df2判断是否一致 1,进行数据匹配 merge统一排序category 2,数据比对 d...

网友评论

      本文标题:2023-07-20 三代数据的比对 Blasr(需补充)

      本文链接:https://www.haomeiwen.com/subject/soaoudtx.html