一、题名
药效多肽的定量序效关系研究(王立峰2014)
二、文章结构
摘要
Abstract
中英文缩写一览表
第一章绪论
第二章原理与方法
第三章结合SVR与高维特征筛选方法的药效家肽QSAM研完
第四章多肽一级结构表征与抗菌肽QSAM建模
第五章药效多肽的个体化QSAM研究
第六章总结与下一步研究计划
参考文献
致谢
作者简介
附表
三、关键词及摘要解读
关键词
:药效多肽;定量序效关系;支持向量回归;描述子;特征筛选;个体化预测;解释性
摘要
1、多肽类药物具有分子量小、热稳定性好、特异性强及不易产生免疫原性等优点;但现有绝大多数药效多肽的生物活性还不够理想、不能满足实际生产应用要求。因此,对已发现的数量足够多的药效多肽进行有目的地改造、进一步优化设计新的高活性药效多肽分子具有重要的理论意义和应用价值。
2、肽和蛋白的空间结构与生物学功能本质上是由其一级结构(即氨基酸组成序列)决定的,高级空间结构较难测定且在后续指导合成中难以精确实现,而肽的一级序列结构简便易得。因此,基于一级序列结构的多肽定量序效模型(Quantitative Sequence-Activity Model,QSAM)成为设计预测高活性新药效多肽的有效手段。
3、本文以支持向量回归(Support Vector Regression,SVR)为基础建模工具,先后从序列结构表征、特征筛选、个体化预测和模型解释等四个关键环节出发,对多肽序效关系模型进行了优化改进,获得了能够高效稳定预测生物活性并明确指导结构优化与改造的多肽QSAM模型,主要工作包括:
- 序列结构表征,即如何有效地对多肽一级序列结构进行数值化转换,获得统计模型可识别的描述特征。本文以天然氨基酸的531个物化性质作为描述子(命名为AA531)对多肽序列进行全面综合表征,为进一步克服AA531不适用于不等长肽体系的缺陷并综合考虑多肽序列的上下文关联,引入地统计学(Geostatistics,GS)和多尺度组分(Multi-Scale ComponentMSC)构建描述子GS-AA531和AA531-MSC。
- 特征筛选,并非所有特征都对建模有用,冗余或无用特征会对模型精度和稳定性产生不利影响。对AA531系列描述子表征多肽产生的高维特征集,本文构建二元矩阵重置过滤器(Binary Matrix Resetting Filter,BMRF)实现特征非线性快速降维,再结合多轮末尾淘汰法(Multi-Round Last-Elimination,MRLE)继续精细筛选,最终得到少量的、有明确统计意义的关键特征。
- 个体化预测,具有相似分子结构与理化属性的肽类分子,其生物活性往往也较接近。本文首次提出“活性多肽个体化预测”:基于地统计学半变异函数,为每一待测多肽样本选择近邻样本构成其特有的训练样本集,基于保留描述符和特有训练样本集,对每一待测多肽样本实施个体化预测。
- 模型解释,高精度预测和合理解释是回归模型的两大主题。针对肽SVR回归模型本身可解释性差的缺陷,本文引入基于F测验的模型显著性分析、保留描述符重要性及效应分析,显著增强了多肽SVR回归预测模型的可解释性能,为后续序列结构优化与改造提供指导。
网友评论