将序列从长到短排列,并进行重命名,去掉长度较短的序列,每行碱基长度60bp
脚本如下
[train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl
Usage:
Perl /home/train/bin/genome_seq_clear.pl genome.fasta > new_genome.fasta
--no_sort
设置不对序列按长度进行排序。默认设置下,程序会对输入的序列按从长到短进行排序。添加该参数则不进行排序。
--no_rename
设置不对序列进行重命名。若添加该参数,表示不会对序列名称进行重命名,参数--seq_prefix不会生效。
--no_change_bp
设置不对碱基进行修改。默认设置下,程序会将序列中除ATCG以外的其它字符变为碱基N,并将小写字符变为大写。添加该参数则不对序列进行修改。
--seq_prefix <String> default: "scaffold"
设置--no_rename参数后,该参数失效。重命名后的序列名称以该指定的参数为前缀,后接逐一递增的数字编号,编号前用数字0补齐以使所有序列数字编号的字符数一致。
--min_length <Int> default: 1000
设置最短的序列长度。丢弃长度低于此阈值的序列。
--line_length <Int> default: 60
设置输出的fasta文件中,序列在每行的最大字符长度。若该值 < 0,则表示不对序列进行换行处理。
[train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" ~/04.genome_assembling/IDBA/out/scaffold.fa | head
>scaffold_0
>scaffold_1
>scaffold_2
>scaffold_3
>scaffold_4
>scaffold_5
>scaffold_6
>scaffold_7
>scaffold_8
>scaffold_9
[train@MiWiFi-R3P-srv genome_seq_statistics]$ genome_seq_clear.pl --seq_prefix MS01Scaffold --min_length 1000 ~/04.genome_assembling/IDBA/out/scaffold.fa > genome.fasta
[train@MiWiFi-R3P-srv genome_seq_statistics]$ grep ">" genome.fasta | head
>MS01Scaffold001
>MS01Scaffold002
>MS01Scaffold003
>MS01Scaffold004
>MS01Scaffold005
>MS01Scaffold006
>MS01Scaffold007
>MS01Scaffold008
>MS01Scaffold009
>MS01Scaffold010
搜索端粒序列脚本
[train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl
Usage:
/home/train/bin/search_telomere_in_genome.pl genome.fasta > telomere_info.txt
大部分物种端粒序列的重复单元是TTAGGG/CCCTAA。本程序能在基因组中寻找端粒重复单元的串联重复序列,并给出位点信息。
--split-length <int> default: 100000
--overlap-length <int> default: 10000
程序会将每条序列打断后进行重复单元搜索。这两个参数设置打断的序列长度和相邻两序列之间的重叠长度。
--repeat-unit <string> default: TTAGGG
设置重复单元碱基序列,该重复单元的反向互补也将作为重复单元进行搜索。可以在端粒数据库(http://telomerase.asu.edu/sequences_telomere.html)中寻找目标端粒重复单元。
vertebrate sp. TTAGGG
plants sp. TTTAGGG
Pezizomycotina TTAGGG
--min-repeat-num <int> default: 4
设置重复单元最小重复次数.默认值选4的原因:端粒DNA的四个TTAGGG重复序列可以形成一种四链的G-四链体结构。该结构非常稳定,会阻止端粒DNA与端粒酶的相互作用。
[train@MiWiFi-R3P-srv telomere_analysis]$ search_telomere_in_genome.pl --repeat-unit CACTTAA ~/00.incipient_data/data_for_genome_assembling/assemblies_of_Malassezia_sympodialis/Malassezia_sympodialis.genome_V01.fasta > telomere_info.txt
[train@MiWiFi-R3P-srv telomere_analysis]$ cat telomere_info.txt
SeqID SeqLength Start End Length Type
MS01Contig01 1509139 3 142 140 CACTTAA
MS01Contig01 1509139 1508907 1508934 28 TTAAGTG
MS01Contig01 1509139 1508970 1509088 119 TTAAGTG
MS01Contig01 1509139 1508907 1508934 28 TTAAGTG
MS01Contig01 1509139 1508970 1509088 119 TTAAGTG
MS01Contig02 1354298 2 127 126 CACTTAA
MS01Contig02 1354298 134 259 126 CACTTAA
MS01Contig02 1354298 1354050 1354294 245 TTAAGTG
MS01Contig03 1203050 17 226 210 CACTTAA
MS01Contig03 1203050 1202889 1202923 35 TTAAGTG
MS01Contig03 1203050 1202957 1203012 56 TTAAGTG
MS01Contig03 1203050 1203019 1203046 28 TTAAGTG
MS01Contig03 1203050 1202889 1202923 35 TTAAGTG
MS01Contig03 1203050 1202957 1203012 56 TTAAGTG
MS01Contig03 1203050 1203019 1203046 28 TTAAGTG
MS01Contig04 940159 1 119 119 CACTTAA
MS01Contig05 634836 3 135 133 CACTTAA
MS01Contig05 634836 162 203 42 CACTTAA
MS01Contig05 634836 634639 634680 42 TTAAGTG
MS01Contig05 634836 634700 634804 105 TTAAGTG
MS01Contig06 631780 631595 631650 56 TTAAGTG
MS01Contig06 631780 631657 631768 112 TTAAGTG
MS01Contig07 518191 1 196 196 CACTTAA
MS01Contig07 518191 518003 518037 35 TTAAGTG
MS01Contig07 518191 518071 518140 70 TTAAGTG
MS01Contig07 518191 518147 518188 42 TTAAGTG
MS01Contig08 440595 3 128 126 CACTTAA
MS01Contig08 440595 147 181 35 CACTTAA
MS01Contig08 440595 188 236 49 CACTTAA
MS01Contig08 440595 440336 440524 189 TTAAGTG
MS01Contig08 440595 440537 440592 56 TTAAGTG
MS01Contig09 400084 399859 399907 49 TTAAGTG
MS01Contig09 400084 399954 400051 98 TTAAGTG
MS01Contig09 400084 400003 400051 49 TTAAGTG
MS01Contig11 65935 4 157 154 CACTTAA
网友评论