查看fastq总体信息
root:~/refs# seqkit stat duplicated-reads.fq.gz
seqkit fx2tab
1.取序列名
seqkit fx2tab -n -i duplicated-reads.fq.gz | head
2.查看gc含量
seqkit fx2tab -n -i -g duplicated-reads.fq.gz | head
3.查看序列中任意碱基(或组合)的含量
seqkit fx2tab -n -i -B A -B T duplicated-reads.fq.gz | head
seqkit sample
用于从文件中取部分序列用于分析,可以按数量或者按比例选择。
1.按照数量选择(数量不一定准确)
seqkit sample -n 1000 duplicated-read.fa.gz | head
2.按照比例选择
seqkit sample -p 0.001 duplicated-reads.fq.gz
seqkit grep
用于匹配需要的序列
按照文件中名字匹配(一行只能存储一个名字)
seqkit grep -f id.txt duplicated-reads.fq.gz
注意保存序列名用seqkit seq -n - i,用seqkit fx2tab -n -i 在名字后面会带有空格
seqkit rmdup
可依据名字或者序列移除重复序列
网友评论