美文网首页
寻找基因组中具特定式样的序列,然后分析其进化特征

寻找基因组中具特定式样的序列,然后分析其进化特征

作者: Ting_Wang | 来源:发表于2018-07-25 10:50 被阅读0次


    1 GenBank 获得序列

    #要强化对Taxonomy数据库的使用,特别注意使用其ID;然后,建立检索结果的网页链接

    构建不同类群的基因组表单  #csv

    Geneious --> fasta 格式      #便于准备输入文件

    掌握文本文件的读写

    # with open('data.txt', 'r') as myfile:

            data=myfile.read().replace('\n', '') 这样的语句更容易理解

    准备原有、互补、反向互补和反向序列数据  #用BioEdit

    2 用Pthyon的正则表达式模块   import re

    构建正则表达式

    finditer() 找出目标序列及其位置   #注意和findall()的区别,核心是要懂iterator

    用?= --> 寻找overlapped序列  #不可遗漏

    例子:

    #给出匹配substring

    text = 'AATTATAATTAT'

    pattern = '(?=(A[AT][AT]))'

    regexp = re.compile(pattern)

    iter = regexp.finditer(text)

    for s in iter:

      ....     print s.groups()

      ....     print s.span()

    #输出

     ('AAT',)

    (0, 0)

    ('ATT',)

    (1, 1)

    ('AAT',)

    (6, 6)

    ('ATT',)

    (7, 7)

    3   用HyPhy分析进化速率及选择压力

    极大似然框架下分析:每个位点的替换数、转换速率、颠换速率、转换颠换比、dN、dS及dN/dS等基本特征

    #优点是可在系统发育背景下进行估算,避免一些偏差

    Spearman rank-correlation coefficient 和 Wilcoxon rank sum test

     #非参分析:估算值之间的相关性和差异显著性

    4 借助机器学习途径了解旁侧序列的文本特征

    特定的特征

    先试用较简单的模型和最近邻居聚类算法

    相关文章

      网友评论

          本文标题:寻找基因组中具特定式样的序列,然后分析其进化特征

          本文链接:https://www.haomeiwen.com/subject/nixpmftx.html