安装时间:2021.2.16
1. 简介
seqkit是一套针对fasta/fastq序列文件进行各种处理的文件,能够满足常见的需求。仅将目前常用的使用方法记录如下。后续遇到需要处理fasta/fastq文件序列时,再继续研究。
2. 安装
利用conda一键安装
conda install seqkit
3. 使用
3.1 统计文件中的基因数量,碱基多少和GC含量
seqkit fx2tab -lingH <文件.fasta>
3.2 反向互补序列
seqkit seq -rp <文件a.fasta> > <文件b.fasta>
文件a中可以包含多条序列
3.3 格式化每条序列的输出长度
seqkit seq <test.fa> -w 50 > <test_50.fa>
默认是60个碱基一行
3.4 比较多个文件中ID相同的序列
seqkit common <test1.fa> <test2.fa> -o <common.fasta>
3.5 输出比较文件中序列相同的序列
seqkit common <test1.fa> <test2.fa> -s -i -o <common.fasta>
3.6 按照序列长度进行排序输出
seqkit sort -n <test.fa> -o <outfile.fa>
3.7 将一个文件切割成6份
seqkit split hairpin.fa -p 6
3.8 一个fasta文件小写转变成大写
seqkit seq test.fa -u > test_upper.fa
转变为小写用选项
-l
网友评论