美文网首页
DupGen_finder安装及使用

DupGen_finder安装及使用

作者: GenomeStudy | 来源:发表于2023-07-25 23:45 被阅读0次

    串联复制(Tandem duplication) :串联复制主要发生在染色体重组区域,串联复制形成的基因家族成员通常紧密排列在同一条染色体上,形成一个序列相似、功能相近的基因簇。

    1.jpg

    片段复制(Segmental duplication):导致复制的基因距离较远,甚至位于不同的染色体。

    2.jpg

    自交不亲和性(Self-incompatibility),系植物柱头排斥传至其上的同花或同株的花粉粒的现象。植物的自交不亲和性主要分为孢子体自交不亲和性和配子体自交不亲和性两大类。

    DupGen_finder这个软件就可以去鉴定这些串联重复和片段重复,但是只针对二倍体!
    1.安装

    cd ~/biosoft  # or any directory of your choice
    git clone https://github.com/qiao-xin/DupGen_finder.git
    cd DupGen_finder
    make
    chmod 775 DupGen_finder.pl
    chmod 775 DupGen_finder-unique.pl
    chmod 775 set_PATH.sh
    source set_PATH.sh
    

    DupGen_finder的使用
    1.数据准备

    要分类基因复制模式的目标基因组,两个输入文件:*.gff和 *.blast

    target_species.gff,目标物种的基因位置文件,采用制表符分隔格式。例如,“Ath.gff”。

    target_species.blast ,目标物种的 blastn 输出文件(-outfmt 6)(自我基因组比较)。例如,“Ath.blast”。

    #Ath.gff 中的数据如下所示(制表符分隔):
    Ath-Chr1    AT1G01010.1 3631    5899
    Ath-Chr1    AT1G01020.1 5928    8737
    Ath-Chr1    AT1G01030.1 11649   13714
    Ath-Chr1    AT1G01040.2 23416   31120
    Ath-Chr1    AT1G01050.1 31170   33153
    

    Ath.blast文件格式可以使用

    query acc.ver, subject acc.ver, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
    

    进行blast的比对

    # Create a reference database
    makeblastdb -in Ath.pep -dbtype prot -title Ath -parse_seqids -out Ath
    # Align protein query sequences against the reference database
    blastp -query query_file -db database -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out xyz.blast
    # For example
    blastp -query Ath.pep -db Ath -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out Ath.blast
    

    2.使用

    mkdir 01.date && mkdir 02.preparation
    
    name1=ssp
    name2=SSP
    ## ${name}.blast准备
    ref_cds=../01.date/${name1}.cds.fa
    makeblastdb -in ${ref_cds} -dbtype nucl
    blastn -num_threads 10 -query ${ref_cds} -db ${ref_cds} -evalue 1e-20 -outfmt 6 > ${name1}.blast
    
    
    ## ${name}.gff准备
    ref_gff=../01.date/${name1}.gen.gff3
    awk '$3 == "gene"' ${ref_gff} | awk 'BEGIN{FS="\t|=|;";OFS="\t"}{print $1,$10,$4,$5}' > ${name1}.gff
    
    cp ${name1}.blast ${name1}_${name2}.blast
    cp ${name1}.gff ${name1}_${name2}.gff
    DupGen_finder-unique.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation  -t ${name1} -c ${name2} -o results
    
    DupGen_finder.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation -t ${name1} -c ${name2} -o Rsults
    

    Running:

    DupGen_finder.pl
    DupGen_finder-unique.pl
    ##ex.
    DupGen_finder.pl -i (data_directory)  -t ${name1} -c ${name2} -o results
    DupGen_finder-unique.pl -i (data_directory) -t ${name1} -c ${name2} -o results
    
    DupGen_finder-unique.pl -i ~/Work/structural_analysis/DupGen/1.date/s.of/02.preparation  -t ${name1} -c ${name2} -o results
    
    

    相关文章

      网友评论

          本文标题:DupGen_finder安装及使用

          本文链接:https://www.haomeiwen.com/subject/nhzhpdtx.html