1 GenBank 获得序列
#要强化对Taxonomy数据库的使用,特别注意使用其ID;然后,建立检索结果的网页链接
构建不同类群的基因组表单 #csv
Geneious --> fasta 格式 #便于准备输入文件
掌握文本文件的读写
# with open('data.txt', 'r') as myfile:
data=myfile.read().replace('\n', '') 这样的语句更容易理解
准备原有、互补、反向互补和反向序列数据 #用BioEdit
2 用Pthyon的正则表达式模块 import re
构建正则表达式
finditer() 找出目标序列及其位置 #注意和findall()的区别,核心是要懂iterator
用?= --> 寻找overlapped序列 #不可遗漏
例子:
#给出匹配substring
text = 'AATTATAATTAT'
pattern = '(?=(A[AT][AT]))'
regexp = re.compile(pattern)
iter = regexp.finditer(text)
for s in iter:
.... print s.groups()
.... print s.span()
#输出
('AAT',)
(0, 0)
('ATT',)
(1, 1)
('AAT',)
(6, 6)
('ATT',)
(7, 7)
3 用HyPhy分析进化速率及选择压力
极大似然框架下分析:每个位点的替换数、转换速率、颠换速率、转换颠换比、dN、dS及dN/dS等基本特征
#优点是可在系统发育背景下进行估算,避免一些偏差
Spearman rank-correlation coefficient 和 Wilcoxon rank sum test
#非参分析:估算值之间的相关性和差异显著性
4 借助机器学习途径了解旁侧序列的文本特征
特定的特征
先试用较简单的模型和最近邻居聚类算法
网友评论