数据预处理

数据的预处理是用时最长的步骤

原始输入文件要求

基因组mRNA位置信息.gff。
基因组序列信息文件fasta
基因组蛋白序列信息文件fasta

wgdi需要三种信息，分别是BLAST, 基因的位置信息和染色体长度信息，要求格式如下

1 gff wgdi自己定义的gff，注意提取最长。转录本基因的位置信息: 以tab分隔，分别为chr，id，start，end，strand，order，old_id。（并非真正意义上的GFF格式）

2 lens （注意排序）

wgdi作者提供的脚本，可同时生成所需的非标gff和lens文件

python 01.getgff.py NTX.protein.best.gff NTX.old.gff
python 02.gff_lens.py  NTX.old.gff 替换词 NTX.gff NTX.lens
##使用中注意，生成的数据结果，前后列的格式对应于cds和prot
##或者使用deal.py （注意，gff文件需要使用geneious处理好的文件，不允许出现第九列无分号的情况）

3 blast 结果outfmt 6

blast所需文件准备

python 03.seq_newname.py 已经改名输出的gff文件 蛋白编码.fasta 按照gff改名的蛋白编码.fasta
python 03.seq_newname.py 已经改名输出的gff文件 dna序列.fasta 按照gff改名的dna序列.fasta

blast输出文件


makeblastdb -in 按照gff改名的蛋白编码.fasta -dbtype prot
blastp -num_threads 6 -db 按照gff改名的蛋白编码.fasta -query 按照gff改名的dna序列.fasta -outfmt 6 -evalue 1e-5 -num_alignments 20 -out NTX.blastp.txt

此gff文件中第二列应该与blastp产生文件的比对文件名相同，不然就会发生报错

Dotplot

wgdi -d \? > NTX.conf 
vim NTX.conf
[dotplot]
blast = blast file
gff1 =  gff1 file
gff2 =  gff2 file
lens1 = lens1 file
lens2 = lens2 file
genome1_name =  Genome1 name
genome2_name =  Genome2 name
multiple  = 1   # 最好的同源基因数, 用输出结果中会用红点表示
score = 100     # blast输出的score 过滤 
evalue = 1e-5   # blast输出的evalue 过滤 
repeat_number = 20  # genome2相对于genome1的最多同源基因数
position = order
blast_reverse = false
ancestor_left = none
ancestor_top = none
markersize = 0.5  # 点的大小
figsize = 10,10   # 图片大小
savefig = savefile(.png,.pdf)
##修改blastp文件输入和gff文件输入
wgdi -d NTX.conf