2019.10.22
勤奋,在思考和文献中游走。
1. 序列比对、DNA序列比对、蛋白质序列比对、BLAST比对搜索、理解BLAST输出结果。
2. 和人最近的是黑猩猩。杨树基因组有4亿个bp。
3. 基因:有启动子和终止子,之间有内含子和外显子。
远源蛋白:有些好的算法能比对到。
4. DNA序列比对:
点阵作图法
全局比对(Global Alignment)
局部比对(Local Alignment)
5. 测序一般得到的是5’-3’端
ACCGTG
GTGCCA 方向写反,其实是一条序列。
最早测的是蛋白质序列(Sanger测的牛胰岛素)
6. 全局比对 Needleman-Wunsch算法(1970)
动态规划DP(Dynamic Programming)
DNA比对 插入、删除、匹配(match)、不匹配(mismatch)
7. 局部比对 Local Alignment
Smith-Waterman算法(1981)
蛋白质序列比对(氨基酸都是蛋白质序列)
1. PAM打分矩阵 (1978 Dayhoff)
2. BLOSUM打分矩阵
1.1 PAM1
转移概率矩阵:经过1个进化单位(1百万年),A(丙氨酸)保持不变的概率为0.9867。
1.1 PAM250
转移概率矩阵:经过1个进化单位(2亿5千万年),A保持不变的概率为0.13。
PAM250 为PAM1自乘250次,是随机过程(隐马尔可夫过程),隐马尔可夫模型(HMM)
PAM250 在R中用PAM1写转置,写成小数,能在R中算出来。
PPT P29 20种氨基酸在自然界存在的概率
M 甲硫氨酸 1个密码子编码,1个改变可能就是致命的。
L 亮氨酸
2. BLOSUM打分矩阵
BLOSUM62 数据库中相似度为62%的序列总结出来的。
BLOSUM45 数据库中相似度为45%的序列总结出来的。
算分(Score)
Query 查询序列
Sbjct 目标序列
E值(Expect)两条序列的匹配度,相似性看E值,E值最小,排名最前。E值超过10,就不显示出来。
E值表示在一次数据库搜索中随机情况下期望获得得分大于或等于S的比对数目
网友评论