美文网首页
2023-07-19fasta序列重命名与端粒序列搜索

2023-07-19fasta序列重命名与端粒序列搜索

作者: 麦冬花儿 | 来源:发表于2023-07-30 11:57 被阅读0次

    将序列从长到短排列,并进行重命名,去掉长度较短的序列,每行碱基长度60bp

    脚本如下

    [train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl
    Usage:
        Perl /home/train/bin/genome_seq_clear.pl genome.fasta > new_genome.fasta
    
        --no_sort
            设置不对序列按长度进行排序。默认设置下,程序会对输入的序列按从长到短进行排序。添加该参数则不进行排序。
        --no_rename
            设置不对序列进行重命名。若添加该参数,表示不会对序列名称进行重命名,参数--seq_prefix不会生效。
        --no_change_bp
            设置不对碱基进行修改。默认设置下,程序会将序列中除ATCG以外的其它字符变为碱基N,并将小写字符变为大写。添加该参数则不对序列进行修改。
        --seq_prefix <String>  default: "scaffold"
            设置--no_rename参数后,该参数失效。重命名后的序列名称以该指定的参数为前缀,后接逐一递增的数字编号,编号前用数字0补齐以使所有序列数字编号的字符数一致。
        --min_length <Int>  default: 1000
            设置最短的序列长度。丢弃长度低于此阈值的序列。
        --line_length <Int>  default: 60
            设置输出的fasta文件中,序列在每行的最大字符长度。若该值 < 0,则表示不对序列进行换行处理。
    
    [train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" ~/04.genome_assembling/IDBA/out/scaffold.fa | head
    >scaffold_0
    >scaffold_1
    >scaffold_2
    >scaffold_3
    >scaffold_4
    >scaffold_5
    >scaffold_6
    >scaffold_7
    >scaffold_8
    >scaffold_9
    [train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl --seq_prefix MS01Scaffold --min_length 1000 ~/04.genome_assembling/IDBA/out/scaffold.fa > genome.fasta 
    [train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" genome.fasta | head
    >MS01Scaffold001
    >MS01Scaffold002
    >MS01Scaffold003
    >MS01Scaffold004
    >MS01Scaffold005
    >MS01Scaffold006
    >MS01Scaffold007
    >MS01Scaffold008
    >MS01Scaffold009
    >MS01Scaffold010
    

    搜索端粒序列脚本

    [train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl
    Usage:
        /home/train/bin/search_telomere_in_genome.pl genome.fasta > telomere_info.txt
    
        大部分物种端粒序列的重复单元是TTAGGG/CCCTAA。本程序能在基因组中寻找端粒重复单元的串联重复序列,并给出位点信息。
    
        --split-length <int>    default: 100000
        --overlap-length <int>    default: 10000
        程序会将每条序列打断后进行重复单元搜索。这两个参数设置打断的序列长度和相邻两序列之间的重叠长度。
    
        --repeat-unit <string>    default: TTAGGG
        设置重复单元碱基序列,该重复单元的反向互补也将作为重复单元进行搜索。可以在端粒数据库(http://telomerase.asu.edu/sequences_telomere.html)中寻找目标端粒重复单元。
        vertebrate sp.      TTAGGG
        plants sp.          TTTAGGG
        Pezizomycotina      TTAGGG
    
        --min-repeat-num <int>    default: 4
        设置重复单元最小重复次数.默认值选4的原因:端粒DNA的四个TTAGGG重复序列可以形成一种四链的G-四链体结构。该结构非常稳定,会阻止端粒DNA与端粒酶的相互作用。
    
    [train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl --repeat-unit CACTTAA ~/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta > telomere_info.txt
    [train@MiWiFi-R3P-srv telomere_analysis]$ cat telomere_info.txt 
    SeqID   SeqLength   Start   End Length  Type
    MS01Contig01    1509139 3   142 140 CACTTAA
    MS01Contig01    1509139 1508907 1508934 28  TTAAGTG
    MS01Contig01    1509139 1508970 1509088 119 TTAAGTG
    MS01Contig01    1509139 1508907 1508934 28  TTAAGTG
    MS01Contig01    1509139 1508970 1509088 119 TTAAGTG
    MS01Contig02    1354298 2   127 126 CACTTAA
    MS01Contig02    1354298 134 259 126 CACTTAA
    MS01Contig02    1354298 1354050 1354294 245 TTAAGTG
    MS01Contig03    1203050 17  226 210 CACTTAA
    MS01Contig03    1203050 1202889 1202923 35  TTAAGTG
    MS01Contig03    1203050 1202957 1203012 56  TTAAGTG
    MS01Contig03    1203050 1203019 1203046 28  TTAAGTG
    MS01Contig03    1203050 1202889 1202923 35  TTAAGTG
    MS01Contig03    1203050 1202957 1203012 56  TTAAGTG
    MS01Contig03    1203050 1203019 1203046 28  TTAAGTG
    MS01Contig04    940159  1   119 119 CACTTAA
    MS01Contig05    634836  3   135 133 CACTTAA
    MS01Contig05    634836  162 203 42  CACTTAA
    MS01Contig05    634836  634639  634680  42  TTAAGTG
    MS01Contig05    634836  634700  634804  105 TTAAGTG
    MS01Contig06    631780  631595  631650  56  TTAAGTG
    MS01Contig06    631780  631657  631768  112 TTAAGTG
    MS01Contig07    518191  1   196 196 CACTTAA
    MS01Contig07    518191  518003  518037  35  TTAAGTG
    MS01Contig07    518191  518071  518140  70  TTAAGTG
    MS01Contig07    518191  518147  518188  42  TTAAGTG
    MS01Contig08    440595  3   128 126 CACTTAA
    MS01Contig08    440595  147 181 35  CACTTAA
    MS01Contig08    440595  188 236 49  CACTTAA
    MS01Contig08    440595  440336  440524  189 TTAAGTG
    MS01Contig08    440595  440537  440592  56  TTAAGTG
    MS01Contig09    400084  399859  399907  49  TTAAGTG
    MS01Contig09    400084  399954  400051  98  TTAAGTG
    MS01Contig09    400084  400003  400051  49  TTAAGTG
    MS01Contig11    65935   4   157 154 CACTTAA
    

    相关文章

      网友评论

          本文标题:2023-07-19fasta序列重命名与端粒序列搜索

          本文链接:https://www.haomeiwen.com/subject/hhrnudtx.html