前言
最近碰到一个需求,比较两个fasta文件的所有序列是否一样,但是其名字无所谓是否相同,于是想了一个比较简单的办法,shell下面直接可以完成。比如有A.fasta和B.fasta两个文件:
思路
1.首先把两个文件进行排序,用sort。
2.然后用grep把fasta的header去掉。
3.最后比较两个处理过的文件的md5。
代码
cat A.fasta | sort | grep -v ">" > 1.tmp
cat B.fasta | sort | grep -v ">" > 2.tmp
md5sum 1.tmp 2.tmp
网友评论