共线性片段是指一个同一个物种内部或者两个物种之间,由基因组复制、染色体复制、大片段复制以及物种分化而产生的大片段同源现象。
同源片段内部基因排序保守,意味着功能上也可能保守。
一. MCScanX
准备输入文件
1.蛋白文件的比对结果
2.数据整理后的gff文件
1.蛋白文件的比对结果
1.1 提取挂载在染色体上的序列
grep "^>Iyun_Chr" Iyun.protein.fa > Iyun.protein.txt
sed -i 's/>//g' Iyun.protein.txt
seqtk subseq Iyun.protein.fa Iyun.protein.txt > Iyun.protein_Chr.fa 提取挂载在染色体上的序列
1.2 建库
makeblastdb -in Iyun.protein_Chr.fa -dbtype prot
1.3 比对
#!/bin/bash
#PBS -l nodes=1:ppn=30
#PBS -l walltime=9999:00:00
blastp -query /home/lx_sky6/yyj/genome/Collinearity/all.fa -db /home/lx_sky6/yyj/genome/Collinearity/all.fa -out /home/lx_sky6/yyj/genome/Collinearity/1.blast_out.tab -outfmt 6 -evalue 1e-10 -num_threads 60
1.4 从比对结果中筛选自己想要的比对
第一列以Iyun开头,且第二列以Iyun开头,且第一列和第二列不相同。 即Iyun中物种内比对上的序列。
awk '$1~"Iyun" && $2~"Iyun" && $1 != $2' blast_out.tab | sed 's/Iyun|//g' > Iyun.blast
2. 整理gff文件
grep "^Chr" ./data/Iyun.gff |awk -F '\t|;' '$1~"Chr" && $3=="mRNA"{print $1"\t"$9"\t"$4"\t"$5}' | sed 's/ID=//' > Iyun.gff
3.运行
#!/bin/bash
#PBS -l nodes=1:ppn=30
#PBS -l walltime=9999:00:00
cd /home/lx_sky6/yyj/genome/Collinearity
MCScanX Iyun
网友评论