美文网首页
2023-07-19fasta序列重命名与端粒序列搜索

2023-07-19fasta序列重命名与端粒序列搜索

作者: 麦冬花儿 | 来源:发表于2023-07-30 11:57 被阅读0次

将序列从长到短排列,并进行重命名,去掉长度较短的序列,每行碱基长度60bp

脚本如下

[train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl
Usage:
    Perl /home/train/bin/genome_seq_clear.pl genome.fasta > new_genome.fasta

    --no_sort
        设置不对序列按长度进行排序。默认设置下,程序会对输入的序列按从长到短进行排序。添加该参数则不进行排序。
    --no_rename
        设置不对序列进行重命名。若添加该参数,表示不会对序列名称进行重命名,参数--seq_prefix不会生效。
    --no_change_bp
        设置不对碱基进行修改。默认设置下,程序会将序列中除ATCG以外的其它字符变为碱基N,并将小写字符变为大写。添加该参数则不对序列进行修改。
    --seq_prefix <String>  default: "scaffold"
        设置--no_rename参数后,该参数失效。重命名后的序列名称以该指定的参数为前缀,后接逐一递增的数字编号,编号前用数字0补齐以使所有序列数字编号的字符数一致。
    --min_length <Int>  default: 1000
        设置最短的序列长度。丢弃长度低于此阈值的序列。
    --line_length <Int>  default: 60
        设置输出的fasta文件中,序列在每行的最大字符长度。若该值 < 0,则表示不对序列进行换行处理。
[train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" ~/04.genome_assembling/IDBA/out/scaffold.fa | head
>scaffold_0
>scaffold_1
>scaffold_2
>scaffold_3
>scaffold_4
>scaffold_5
>scaffold_6
>scaffold_7
>scaffold_8
>scaffold_9
[train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl --seq_prefix MS01Scaffold --min_length 1000 ~/04.genome_assembling/IDBA/out/scaffold.fa > genome.fasta 
[train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" genome.fasta | head
>MS01Scaffold001
>MS01Scaffold002
>MS01Scaffold003
>MS01Scaffold004
>MS01Scaffold005
>MS01Scaffold006
>MS01Scaffold007
>MS01Scaffold008
>MS01Scaffold009
>MS01Scaffold010

搜索端粒序列脚本

[train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl
Usage:
    /home/train/bin/search_telomere_in_genome.pl genome.fasta > telomere_info.txt

    大部分物种端粒序列的重复单元是TTAGGG/CCCTAA。本程序能在基因组中寻找端粒重复单元的串联重复序列,并给出位点信息。

    --split-length <int>    default: 100000
    --overlap-length <int>    default: 10000
    程序会将每条序列打断后进行重复单元搜索。这两个参数设置打断的序列长度和相邻两序列之间的重叠长度。

    --repeat-unit <string>    default: TTAGGG
    设置重复单元碱基序列,该重复单元的反向互补也将作为重复单元进行搜索。可以在端粒数据库(http://telomerase.asu.edu/sequences_telomere.html)中寻找目标端粒重复单元。
    vertebrate sp.      TTAGGG
    plants sp.          TTTAGGG
    Pezizomycotina      TTAGGG

    --min-repeat-num <int>    default: 4
    设置重复单元最小重复次数.默认值选4的原因:端粒DNA的四个TTAGGG重复序列可以形成一种四链的G-四链体结构。该结构非常稳定,会阻止端粒DNA与端粒酶的相互作用。
[train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl --repeat-unit CACTTAA ~/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta > telomere_info.txt
[train@MiWiFi-R3P-srv telomere_analysis]$ cat telomere_info.txt 
SeqID   SeqLength   Start   End Length  Type
MS01Contig01    1509139 3   142 140 CACTTAA
MS01Contig01    1509139 1508907 1508934 28  TTAAGTG
MS01Contig01    1509139 1508970 1509088 119 TTAAGTG
MS01Contig01    1509139 1508907 1508934 28  TTAAGTG
MS01Contig01    1509139 1508970 1509088 119 TTAAGTG
MS01Contig02    1354298 2   127 126 CACTTAA
MS01Contig02    1354298 134 259 126 CACTTAA
MS01Contig02    1354298 1354050 1354294 245 TTAAGTG
MS01Contig03    1203050 17  226 210 CACTTAA
MS01Contig03    1203050 1202889 1202923 35  TTAAGTG
MS01Contig03    1203050 1202957 1203012 56  TTAAGTG
MS01Contig03    1203050 1203019 1203046 28  TTAAGTG
MS01Contig03    1203050 1202889 1202923 35  TTAAGTG
MS01Contig03    1203050 1202957 1203012 56  TTAAGTG
MS01Contig03    1203050 1203019 1203046 28  TTAAGTG
MS01Contig04    940159  1   119 119 CACTTAA
MS01Contig05    634836  3   135 133 CACTTAA
MS01Contig05    634836  162 203 42  CACTTAA
MS01Contig05    634836  634639  634680  42  TTAAGTG
MS01Contig05    634836  634700  634804  105 TTAAGTG
MS01Contig06    631780  631595  631650  56  TTAAGTG
MS01Contig06    631780  631657  631768  112 TTAAGTG
MS01Contig07    518191  1   196 196 CACTTAA
MS01Contig07    518191  518003  518037  35  TTAAGTG
MS01Contig07    518191  518071  518140  70  TTAAGTG
MS01Contig07    518191  518147  518188  42  TTAAGTG
MS01Contig08    440595  3   128 126 CACTTAA
MS01Contig08    440595  147 181 35  CACTTAA
MS01Contig08    440595  188 236 49  CACTTAA
MS01Contig08    440595  440336  440524  189 TTAAGTG
MS01Contig08    440595  440537  440592  56  TTAAGTG
MS01Contig09    400084  399859  399907  49  TTAAGTG
MS01Contig09    400084  399954  400051  98  TTAAGTG
MS01Contig09    400084  400003  400051  49  TTAAGTG
MS01Contig11    65935   4   157 154 CACTTAA

相关文章

  • 《端粒效应》_听读书笔记

    1. 端粒是什么?生活压力和衰老有什么关系? 端粒就是染色体末端的DNA序列,但是端粒上的DNA不参与编码,序列固...

  • 2021-04-17

    《端粒效应》听书涨知识,端粒决定我们的宿命,端粒长衰老慢,端粒短衰老怏,端粒是染色体两端的DNA序列,保护染色体的...

  • BLAST分类

    BLASTn:用核酸序列搜索核酸序列数据库 BLASTx:将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库...

  • 第一个python程序

    一:端粒蛋白质序列中氨基酸出现的频率 二:DNA序列中碱基出现的频率 三:一次一个残基地打印出氨基酸序列

  • 4个PG基因组SSRs数量分布

    一、统计tns不同染色体上SSR分布 重命名序列名,使用sed命令(1)先修改染色体序列名称 (2)重新查看序列名...

  • 最详细gson使用解析

    一、Gson的基本用法 fromJson()实现反序列化,toJson()实现了序列化 二、属性重命名 @Seri...

  • 如何利用DNASTAR进行序列比对

    1、打开NCBI,搜索基因 2、找到该序列的CDS序列,输入到序列的标准格式的文件中点击CDS序列 复制该序列即可...

  • 《 端粒效应》之长寿饮食

    从端粒效应这本书中端粒的角度讲,细胞有三个敌人(端粒就是限制人体细胞分裂更新次数的位于染色体末端的DNA序列,...

  • 端粒 -- 可能是最接近真相的衰老机制

    1. 衰老的解释 人之所以变老,是因为某些细胞不再更新了。 端粒:染色体末端的DNA序列。 作用:端粒决定细胞分裂...

  • 长寿的秘密

    端粒酶的长度是决定寿命长短的关键,心态直接影响端粒酶长度变动的速度 科学家研究基因序列的时...

网友评论

      本文标题:2023-07-19fasta序列重命名与端粒序列搜索

      本文链接:https://www.haomeiwen.com/subject/hhrnudtx.html