美文网首页生物信息
序列比对软件 MUMmer 结果可读化处理(四)

序列比对软件 MUMmer 结果可读化处理(四)

作者: 风知秋 | 来源:发表于2022-06-29 11:11 被阅读0次

    关于该软件的计算可选参数以及结果文件的解读,见前三篇分享:

    序列比对软件 MUMmer 快速上手(一)

    序列比对软件 MUMmer 高级使用(二)

    序列比对软件 MUMmer 结果文件解读(三)

    本篇来介绍一下获得的 <prefix> .delta 如何进一步处理分析;

    delta-filter

    delta-filter 用于操作 <prefix>.delta 文件并根据各种选择所需要的 alignments;

    常用命令:

    delta-filter [options] <delta file> > <filtered delta file>

    可选的参数有(部分展示):

    -g   #1对1全局匹配,不允许重排;

    -i   #最小的相似度(Set the minimum alignment identity),可设 [0,100],默认为0;

    -l   #最小的匹配长度,默认为0;

    -q   #仅保留每个 query 在 reference 上的最佳位置,允许多条 query 在 reference 上重叠;

    -r   #仅保留每个 reference 在 query 上的最佳位置,允许多条 reference 在 query 上重叠;

    -u   #最小的联配唯一度(Set the minimum alignment uniqueness),可设 [0,100],默认0;

    -o   #最大重叠度,针对 -r 和 -q 设置。 [0,100],默认100;

    其中,-g 选项可以确定最长的相互一致的匹配集,而 -r 和 -q 选项只要求匹配分别与 ref 或 qry 一致的数据集;不同的是,-g 不允许倒位和异位,而 -r 和 -q 允许;

    选项 -u 可以保留那些以唯一顺序锚定的对齐;

    输出文件的格式与输入文件相同,详见:序列比对软件 MUMmer 结果文件解读(三)

    show-aligns

    可以展示命令行上两个特定序列的 pair-wise alignment,便于识别错误的确切位置以及寻找两个序列之间的 SNPs;

    常用命令:

    show-aligns [options] <delta file> <IdR> <IdQ>

    <ldR> 为期望 ref 序列的 FastA header,<IdQ> 为期望 qry 序列的 FastA header,将显示这两个序列之间的所有对齐,输出将被输出至 stdout。

    可选的参数有:

    -q   #将 alignments 按 query 的开始坐标排序;

    -r   #将 alignments 按 reference 的开始坐标排序;

    -w   #设置输出的屏幕宽度,默认为 60;

    -x   #设置 alignment 的矩阵类型,1 [BLOSUM 45], 2 [BLOSUM 62] or 3 [BLOSUM 80] (default 2)

    其中,-x 选项只适用于氨基酸对齐,只影响错误标记,不影响对齐;

    show-coords

    解析 NUCmer 的 delta alignment output 文件,并展示每个对齐的位置、一致性百分比等信息,是分析 delta file 最常用的工具之一;

    常用命令:

    show-coords [options] <delta file>

    可选参数有:

    -b   #只显示对齐区域的非冗余位置的简短输出;

    -B   #将输出切换为 btab 格式;

    -T   #将输出切换为制表符分隔的格式;

    -H   #省略output header;

    -c   #在输出中包括percent coverage 列;

    -d   #在输出中包含alignment direction / reading frame;

    -g   #只显示包括在the Longest Ascending Subset中的对齐,即全局对齐;建议与-r或-q选项一起使用;不支持circular序列;

    -I (大写i)   #设置显示的minimum percent identity;

    -L   #设置显示的最小对齐长度;

    -o   #注释两个序列之间的最大对齐;

    -q   #按查询对输出行进行排序;

    -r   #按参考对输出行进行排序;

    在没有使用 -H 或 -B 选项时,输出会给每一列添加一个 header tag,如下所示:

    [S1] start of the alignment region in the reference sequence 

    [E1] end of the alignment region in the reference sequence 

    [S2] start of the alignment region in the query sequence 

    [E2] end of the alignment region in the query sequence 

    [LEN 1] length of the alignment region in the reference sequence 

    [LEN 2] length of the alignment region in the query sequence 

    [% IDY] percent identity of the alignment 

    [% SIM] percent similarity of the alignment (as determined by the BLOSUM scoring matrix) 

    [% STP] percent of stop codons in the alignment 

    [LEN R] length of the reference sequence 

    [LEN Q] length of the query sequence 

    [COV R] percent alignment coverage in the reference sequence 

    [COV Q] percent alignment coverage in the query sequence 

    [FRM] reading frame for the reference and query sequence alignments respectively 

    [TAGS] the reference and query FastA IDs respectively

    当使用 -B 选项时,结果会由 12 个 Tab 分隔的列组成,详细如下:

    [1] query sequence ID 

    [2] date of alignment 

    [3] length of query sequence 

    [4] alignment type 

    [5] reference file 

    [6] reference sequence ID 

    [7] start of alignment in the query 

    [8] end of alignment in the query 

    [9] start of alignment in the reference 

    [10] end of alignment in the reference 

    [11] percent identity 

    [12] percent similarity 

    [13] length of alignment in the query 

    [14] 0 for compatibility 

    [15] 0 for compatibility 

    [16] NULL for compatibility 

    [17] 0 for compatibility 

    [18] strand of the query 

    [19] length of the reference sequence 

    [20] 0 for compatibility 

    [21] and 0 for compatibility

    结果将输出到 stdout;

    其中,一些描述的列不会出现在核苷酸比对结果中,如相似度百分比;

    show-snps

    顾名思义,该程序可以报道输出文件中的多态性位点信息,其编目了 delta file 中的 SNPs 和插入/缺失信息,每行一个多态性位点信息;

    常用命令:

    show-snps [options] <delta file>

    结果将被输出到 stdout。

    可选参数如下:

    -C   #不输出从ambiguous mapping 的比对结果中得到的 SNPs;

    -H   #不输出 header;

    -I (大写i)   #不输出 indels;

    -l  #输出结果中包含序列长度信息;

    -q   #依据 query ID 和 SNP 位置信息进行排序;

    -r   ##依据 ref ID 和 SNP 位置信息进行排序;

    -T  #切换至制表符分隔的格式;

    -x   #在输出中包含 SNPs 上下 x 个字符,默认为 0;

    show-tiling

    show-tiling attempts to construct a tiling path out of the query contigs as mapped to the reference sequences. Given the delta alignment information of a few long reference sequences and many small query contigs, show-tiling will determine the best mapped location of each query contig. 

    略,详见 manual of MUMmer

    show-diff

    为量化两个基因组的宏观差异,该程序将比对的 breakpoints 进行分类,以一个标准的,未过滤的 delta file 作为输入文件,确定两个序列集之间的最佳 mapping,并报告该 mapping 中的 breaks;

    常用命令:

    show-diff [options] <deltafile>

    输出为 stdout,每一行输出一个 breakpoint,每行前 5 列分别表示seq ID, feature type, feature start, feature end, and feature length;

    可选参数有:

    -f    #Output diff information as AMOS features

    -H   #Do not show header

    -q   #Show diff information for queries

    -r   #Show diff information for references (default)

    dnadiff

    该脚本是对 nucmer 的包装,使用默认参数进行比对,并运行许多 nucmer 的助手脚本来处理输出,并报告比对的统计数据,SNPs,breakpoints 等;它的目的是评价两个高度相似序列集的序列和结构相似性。

    常用命令:

    dnadiff [options] <reference> <query>

    或者 dnadiff [options] -d <delta file>

    可选参数有:

    -d   # Provide precomputed delta file for analysis

    -p   # Set the prefix of the output files (default "out")

    输出文件有多个,包括:

    OUTPUT:

    .report - Summary of alignments, differences and SNPs

    .delta - Standard nucmer alignment output

    .1delta - 1-to-1 alignment from delta-filter -1

    .mdelta - M-to-M alignment from delta-filter -m

    .1coords - 1-to-1 coordinates from show-coords -THrcl .1delta

    .mcoords - M-to-M coordinates from show-coords -THrcl .mdelta

    .snps - SNPs from show-snps -rlTHC .1delta

    .rdiff - Classified ref breakpoints from show-diff -rH .mdelta

    .qdiff - Classified qry breakpoints from show-diff -qH .mdelta

    .unref - Unaligned reference IDs and lengths (if applicable)

    .unqry - Unaligned query IDs and lengths (if applicable)

    其中,report file 对于比较两个相似基因组的差异十分有用。

    mapview

    从 show-coords 或 mgaps 处获得输入文件并将其转为 FIG, PDF or PS image file;

    mapview 对于将多个 query mapping 到一个 ref 上时很有用;

    详见 manual of MUMmer

    mummerplot

    从 mummer, nucmer, promer or show-tiling 处获得输入,并将其转换为适合使用 gnuplot 绘图的格式;

    暂略,后有时间再补充;


    就是,如果觉得有用的话,登录一下账号点个赞支持一下!

    相关文章

      网友评论

        本文标题:序列比对软件 MUMmer 结果可读化处理(四)

        本文链接:https://www.haomeiwen.com/subject/atnwvrtx.html