美文网首页
寻找基因组中具特定式样的序列,然后分析其进化特征

寻找基因组中具特定式样的序列,然后分析其进化特征

作者: Ting_Wang | 来源:发表于2018-07-25 10:50 被阅读0次


1 GenBank 获得序列

#要强化对Taxonomy数据库的使用,特别注意使用其ID;然后,建立检索结果的网页链接

构建不同类群的基因组表单  #csv

Geneious --> fasta 格式      #便于准备输入文件

掌握文本文件的读写

# with open('data.txt', 'r') as myfile:

        data=myfile.read().replace('\n', '') 这样的语句更容易理解

准备原有、互补、反向互补和反向序列数据  #用BioEdit

2 用Pthyon的正则表达式模块   import re

构建正则表达式

finditer() 找出目标序列及其位置   #注意和findall()的区别,核心是要懂iterator

用?= --> 寻找overlapped序列  #不可遗漏

例子:

#给出匹配substring

text = 'AATTATAATTAT'

pattern = '(?=(A[AT][AT]))'

regexp = re.compile(pattern)

iter = regexp.finditer(text)

for s in iter:

  ....     print s.groups()

  ....     print s.span()

#输出

 ('AAT',)

(0, 0)

('ATT',)

(1, 1)

('AAT',)

(6, 6)

('ATT',)

(7, 7)

3   用HyPhy分析进化速率及选择压力

极大似然框架下分析:每个位点的替换数、转换速率、颠换速率、转换颠换比、dN、dS及dN/dS等基本特征

#优点是可在系统发育背景下进行估算,避免一些偏差

Spearman rank-correlation coefficient 和 Wilcoxon rank sum test

 #非参分析:估算值之间的相关性和差异显著性

4 借助机器学习途径了解旁侧序列的文本特征

特定的特征

先试用较简单的模型和最近邻居聚类算法

相关文章

网友评论

      本文标题:寻找基因组中具特定式样的序列,然后分析其进化特征

      本文链接:https://www.haomeiwen.com/subject/nixpmftx.html