美文网首页生信小白生物信息学与算法
生物信息百Jia软件(十):seqtk

生物信息百Jia软件(十):seqtk

作者: 基因学苑 | 来源:发表于2019-08-05 19:46 被阅读1次

欢迎订阅微信公众号:基因学苑,更多精彩内容等你发掘!

基因学苑QQ群:32798724

seqtk同样来自于生物信息大神李恒之手,被称为序列处理的瑞士军刀,可以方便处理日常序列分析中的小问题,例如将fq转换为fa,格式化序列,截取序列等这些问题并不难,但是可能需要编程完成,而seqtk已经集合了这些功能,一条命令就可以轻松完成,建议好好学习seqtk工具的使用,可以大大提高序列分析的效率。

一、功能分类: 

数据处理工具

二、软件官网:

https://github.com/lh3/seqtk

三、软件介绍:

seqtk是seq tookits的的意思,也就是序列处理的一个工具箱。它的作者是大名鼎鼎的李恒。这款软件类似于序列处理的瑞士军刀,里面有非常多实用的小工具。可以方便处理fasta格式和fatsq格式的数据,这也是生物信息分析中,最常用的两种格式。seqtk可以非常方便的处理,比如统计碱基组成,统计GC含量,截取序列,fastq转换fatsa等等功能。这些一般都需要编程来完成,而seqtk可以一条命令就处理好,非常方便,如果不会编程,掌握这个工具还是非常有帮助的。

四、下载安装: 

gitclone https://github.com/lh3/seqtk.git;

cdseqtk;make

五、软件使用: 

seq    主要功能都在这个选项中,也是最常用的一项

sample    用于抽样

subseq    提取序列

fqchk    fastq质量评估

mergepe    合并pairend reads

trimfq    很明显是截取fastq

hety    计算某个区域杂合性,筛选杂合位点

gc    识别高低gc区域

mutfa    标记出高变区

mergefa    合并fastq或者fasta文件

famask    屏蔽fasta文件,比如将重复区用字母替换为X,这些区域不参与变异检测

dropse    丢掉不是pair end的reads

rename    修改序列ID,比如将ID中的chr全部去掉

randbase    随机选取碱基

cutN    根据N区域截取序列

listhet    提取杂合位点的位置,DNA序列中,可以用非ATCGN的字母表示杂合位点,listhet可以将这些位点位置列出来。

六、使用案例: 

案例1:fastq转换为fasta,支持压缩格式

seqtkseq-ain.fq.gz>out.fa

案例2:illumina质量值转换

seqtk seq -aQ64 -q20in.fq >out.fa

seqtk seq -aQ64 -q20 -n Nin.fq >out.fa

案例3:根据bed文件信息,将固定区域序列提取出来。

seqtksubseqin.fareg.bed>out.fa

案例4:根据bed文件信息,将固定区域序列转换为小写字母

seqtkseq-Mreg.bedin.fa>out.fa

案例5:切除reads前5bp,后面10bp

seqtk trimfq -b5-e10in.fa >out.fa

七、注意事项:

1、每个菜单还有更多的选项参数,例如seqtk seq,列出seq功能的选项参数。

2、对于软件的学习,更多的还是在于亲自上手操作。

相关文章

网友评论

    本文标题:生物信息百Jia软件(十):seqtk

    本文链接:https://www.haomeiwen.com/subject/ewjvdctx.html