安装教程如上
数据预处理
数据的预处理是用时最长的步骤
原始输入文件要求
- 基因组mRNA位置信息.gff。
- 基因组序列信息文件fasta
- 基因组蛋白序列信息文件fasta
wgdi需要三种信息,分别是BLAST, 基因的位置信息和染色体长度信息,要求格式如下
- 1 gff wgdi自己定义的gff,注意提取最长。转录本基因的位置信息: 以tab分隔,分别为chr,id,start,end,strand,order,old_id。(并非真正意义上的GFF格式)
- 2 lens (注意排序)
-
wgdi作者提供的脚本,可同时生成所需的非标gff和lens文件
python 01.getgff.py NTX.protein.best.gff NTX.old.gff python 02.gff_lens.py NTX.old.gff 替换词 NTX.gff NTX.lens ##使用中注意,生成的数据结果,前后列的格式对应于cds和prot ##或者使用deal.py (注意,gff文件需要使用geneious处理好的文件,不允许出现第九列无分号的情况)
-
- 3 blast 结果
outfmt 6
-
blast所需文件准备
python 03.seq_newname.py 已经改名输出的gff文件 蛋白编码.fasta 按照gff改名的蛋白编码.fasta python 03.seq_newname.py 已经改名输出的gff文件 dna序列.fasta 按照gff改名的dna序列.fasta
-
blast输出文件
makeblastdb -in 按照gff改名的蛋白编码.fasta -dbtype prot blastp -num_threads 6 -db 按照gff改名的蛋白编码.fasta -query 按照gff改名的dna序列.fasta -outfmt 6 -evalue 1e-5 -num_alignments 20 -out NTX.blastp.txt
-
-
此gff文件中第二列应该与blastp产生文件的比对文件名相同,不然就会发生报错
Dotplot
wgdi -d \? > NTX.conf
vim NTX.conf
[dotplot]
blast = blast file
gff1 = gff1 file
gff2 = gff2 file
lens1 = lens1 file
lens2 = lens2 file
genome1_name = Genome1 name
genome2_name = Genome2 name
multiple = 1 # 最好的同源基因数, 用输出结果中会用红点表示
score = 100 # blast输出的score 过滤
evalue = 1e-5 # blast输出的evalue 过滤
repeat_number = 20 # genome2相对于genome1的最多同源基因数
position = order
blast_reverse = false
ancestor_left = none
ancestor_top = none
markersize = 0.5 # 点的大小
figsize = 10,10 # 图片大小
savefig = savefile(.png,.pdf)
##修改blastp文件输入和gff文件输入
wgdi -d NTX.conf
网友评论