序列截取实际上也就是字符串截取
1.索引数字使用
Python 允许从字符串的两端使用索引:
- 当以字符串的左端(字符串的开头)为起点时,索引是从 0 开始计数的;字符串的第一个字符的索引为 0,第二个字符的索引为 1,第三个字符串的索引为 2 ……
seqence='ATCG'
seqence[0]
Out[31]: 'A'
seqence[1]
Out[32]: 'T'
seqence[3]
Out[33]: 'G'
- 当以字符串的右端(字符串的末尾)为起点时,索引是从 -1 开始计数的;字符串的倒数第一个字符的索引为 -1,倒数第二个字符的索引为 -2,倒数第三个字符的索引为 -3 ……
seqence[-1]
Out[34]: 'G'
seqence[-3]
Out[35]: 'T'
seqence[-4]
Out[36]: 'A'
2.获取多个字符(字符串截去/字符串切片)
使用[ ]除了可以获取单个字符外,还可以指定一个范围来获取多个字符,格式为:
sequence[start : end : step]
- start:表示要截取的第一个字符所在的索引(截取时包含该字符)。如果不指定,默认为 0,也就是从字符串的开头截取;
- end:表示要截取的最后一个字符所在的索引(截取时不包含该字符)。如果不指定,默认为字符串的长度;
- step:指的是从 start 索引处的字符开始,每 step 个距离获取一个字符,直至 end 索引出的字符。step 默认值为 1,当省略该值时,最后一个冒号也可以省略。
3.截取编码蛋白的起始密码子与终止密码子
起始密码子就是前三个字符串[0,1,2],终止密码子就是最后三个字符串[-3,-2,-1]
- 起始密码子,因为end截取时不包含该字符,所以要取[0,1,2]就得选择
[0:3]
这样才能包括前三个字符。
seq[:3]
Out[39]: 'ATT'
- 终止密码子,可以直接使用
[-3:]
,因为start是包含起始位点的。
seq[-3:]
Out[40]: 'TAA'
网友评论