1、将所有样品的CDS序列合并到一个文件 cat *orfs.cds > all.cds
2、使用seqkit 在合集的文件中提取ID号相同的核苷酸序列 seqkit common all.cds OG0011069.fasta -o common.fasta
(seqkit参数介绍 1、By ID(default,>后面,空格之前的名字)输出ID名字相同的。seqkit common test1.fa test2.fa -o common.fasta2、By full name(整个序列的名字,包含description部分)。输出序列名字相同的。seqkit common test1.fa test2.fa -n -o common.fasta3、输出要比较的文件中序列相同的序列seqkit common test1.fa test2.fa -s -i -o common.fasta4、输出要比较的文件中序列相同的序列(for large sequences)seqkit common test1.fa test2.fa -s -i -o common.fasta --md5)
3、使用pal2nal.pl脚本按氨基酸序列对齐核苷酸序列 (pal2nal.pl下载地址 http://www.bork.embl.de/pal2nal/#Download)
perl /datapool/wangyinzheng/liufangpu/soft/pal2nal.v14/pal2nal.pl OG0011069.fasta all.cds -output fasta > example_CDS_aln.fasta
网友评论