美文网首页生信gene family
5.序列比对(贯穿所有的生物信息学)

5.序列比对(贯穿所有的生物信息学)

作者: 伯涵_75dc | 来源:发表于2019-11-05 12:06 被阅读0次

    2019.10.22 

    勤奋,在思考和文献中游走。

    1. 序列比对、DNA序列比对、蛋白质序列比对、BLAST比对搜索、理解BLAST输出结果。

    2. 和人最近的是黑猩猩。杨树基因组有4亿个bp。

    3. 基因:有启动子和终止子,之间有内含子和外显子。

    远源蛋白:有些好的算法能比对到。

    4. DNA序列比对:

    点阵作图法

    全局比对(Global Alignment)

    局部比对(Local Alignment)

    5. 测序一般得到的是5’-3’端

    ACCGTG

    GTGCCA 方向写反,其实是一条序列。

    最早测的是蛋白质序列(Sanger测的牛胰岛素)

    6. 全局比对  Needleman-Wunsch算法(1970) 

    动态规划DP(Dynamic Programming)

    DNA比对 插入、删除、匹配(match)、不匹配(mismatch)

    7. 局部比对 Local Alignment

    Smith-Waterman算法(1981)

    蛋白质序列比对(氨基酸都是蛋白质序列)

    1. PAM打分矩阵 (1978 Dayhoff)

    2. BLOSUM打分矩阵

    1.1 PAM1

    转移概率矩阵:经过1个进化单位(1百万年),A(丙氨酸)保持不变的概率为0.9867。

    1.1 PAM250

    转移概率矩阵:经过1个进化单位(2亿5千万年),A保持不变的概率为0.13。

    PAM250 为PAM1自乘250次,是随机过程(隐马尔可夫过程),隐马尔可夫模型(HMM)

    PAM250 在R中用PAM1写转置,写成小数,能在R中算出来。

    PPT  P29 20种氨基酸在自然界存在的概率

    M 甲硫氨酸 1个密码子编码,1个改变可能就是致命的。

    L 亮氨酸

    2. BLOSUM打分矩阵

    BLOSUM62 数据库中相似度为62%的序列总结出来的。

    BLOSUM45 数据库中相似度为45%的序列总结出来的。

    算分(Score)

    Query 查询序列

    Sbjct 目标序列

    E值(Expect)两条序列的匹配度,相似性看E值,E值最小,排名最前。E值超过10,就不显示出来。

    E值表示在一次数据库搜索中随机情况下期望获得得分大于或等于S的比对数目

    相关文章

      网友评论

        本文标题:5.序列比对(贯穿所有的生物信息学)

        本文链接:https://www.haomeiwen.com/subject/hhhsbctx.html