美文网首页linux
Win/Linux平台批量处理FASTA文件的工具

Win/Linux平台批量处理FASTA文件的工具

作者: Mr_我爱读文献 | 来源:发表于2020-03-03 21:24 被阅读0次

    基因组测序技术的发展使得生物序列日益增多,从大量序列数据中挖掘有用的信息成为许多研究领域的重要手段,这就使得我们必须掌握一些序列处理的方法。其中,FASTA文件是基因组最为常见的文件格式之一。然而,庞大的基因组数据让FASTA文件的处理变得非常棘手,如多基因的串联合并、序列的提取或删除、序列ID检索与替换等。因此,开发FASTA文件批量处理软件工具在生物信息研究中显得尤其重要。近些年,经过生信工作者的不懈努力,许多FASTA文件批量处理工具应运而生。熟悉和掌握这些工具的使用,可为广大科研人员提供便捷。

    FASTA文件处理工具主要分为两类:Windows系统的界面化版本以及Linux系统的命令行版本。界面化版本的优点就是操作方便,无需任何编程以及Linux系统管理能力,点点鼠标就可以完成分析。而命令行版本的优点则是可以大批量并行计算,缩短分析时间,缺点就是需要编程以及Linux系统管理基础。目前,界面化程序主要有TBtools以及FasParser;命令行版本主要包括seqmagickseqkitseqtkfasta_utilitiesFASTAX-toolkitfastascripts以及Reseqtools等。下面就简单地介绍几款软件,详细使用方法可自行Google。

    FasParser

    • 提取及重命名fasta ID
    • 统计fasta序列长度信息
    • DNA翻译为AA
    • 鉴定指定支系特异氨基酸或核苷酸位点
    • 提取4倍简并位点、第1、2、3位密码子
    • 根据ID串联序列
    • 根据ID或者关键词提取序列
    • 过滤序列

    TBtools

    • 根据GFF/GTF以及基因组文件获取CDS、protein序列
    • fasta序列与区段提取
    • fasta序列过滤
    • fasta序列信息统计
    • 序列反向互补
    • ID简化
    • ID重命名
    • ID增加前缀
    • fasta文件合并与分割
    • 获取基因组最长CDS
    • 序列模式定位

    命令行工具

    Seqkit

    01. Sequence and subsequence
    • seq 转换序列(反向、互补、提取ID)
    • subseq 按区域/GTF/BED获取子序列,包括侧翼序列
    • sliding 序列滑窗
    • stats 序列统计
    • fadix 建立索引,提取序列
    02. Format conversion
    • fx2tab 将fasta转换为表格形式,统计长度以及GC含量
    • translate 将DNA翻译为蛋白
    03. Searching
    • grep 通过id/name/sequence/sequence motifs搜索序列,允许不匹配
    • locate 定位子序列/基序,允许不匹配
    • fish 使用局部对齐在较大序列中寻找短序列
    04. Set operations
    • rmdup 通过id/name/sequence删除重复序列
    • common 通过id/name/sequence查找多个文件的公共序列
    • split 按id/seq区域/大小/部分将序列拆分
    05. Edit
    • replace 通过正则匹配替换序列名
    • rename 重命名重复的id
    • concat 串联序列
    • mutate 编辑序列(点突变、插入、删除)
    06. Ordering
    • sort 排序

    相关文章

      网友评论

        本文标题:Win/Linux平台批量处理FASTA文件的工具

        本文链接:https://www.haomeiwen.com/subject/rzdklhtx.html