溶解度是化合物的一种基本物理化学性质,在药物化学、环境化学等多种研究中有重要的参考价值。作为对实验测量方法的补充,建立快捷、可靠、普适的溶解度预测方法具有重要的理论意义和明确的应用价值。自20世纪九十年代末以来,人们发展了许多种预测方法,应用了多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘法(PLS)、人工神经网络(ANN)、支持向量机(SVM)、随机森林回归(RFR)等诸多算法。这些工作在不同的体系上取得了不同程度的成功,但是距离解决溶解度预测这一目标尚很遥远。
2008年,Llinas等人公开发起了“溶解度挑战”,其最终结果生动地反映了这一情况,在领域中刷了流量。Llinas等人使用CheqSol方法精确测量了结构不同、具有重要生物学意义的132个分子的固有溶解度S0,以其中的100个分子作为训练集,32个分子作为测试集,要求参赛者根据溶解度实验数据公开的训练集构建模型,对溶解度实验数据未公开的测试集进行预测1。该挑战的独特之处在于要求所有参赛者基于相同的数据源构建模型。这一挑战吸引了大量参赛者,他们使用了各种预测方法来计算,然而所有的方法表现大致相同,并不能确定谁是赢家2。“溶解度挑战”的结果引发了许多关于溶解度预测方法的有效性及数据质量的讨论。在“溶解度挑战”开展之前,由于溶解度的精确测量比较困难,人们认为不精准的测量数据是预测结果不佳的重要原因。然而,“溶解度挑战”的结果显示也许并非如此,预测结果不佳应当主要归因于预测方法存在的固有缺陷。
弹指一挥间,十年之后人们当然积累了更多化合物的溶解度实验数据。Llinas等人重新审视十年前的“溶解度挑战”,基于包含不同实验室间可重现的实验数据组成的数据库(6355S0),从中挑选了两组数据集作为新的测试集,发起了新一轮“溶解度挑战”3。第一组数据被小编毫无文采地翻译为“紧密集”(tight set):由100个类药性强的分子组成。每个分子的log S0数据来自于至少三个实验室,其标准偏差(SD)在0.11 ∼ 0.22对数单位,平均为0.17对数单位。第二组数据被小编同样毫无文采地翻译为“松散集”(loose set):由32个分子组成,每个分子的log S0也来自于至少三个实验室,标准偏差(SD)在0.50 ∼ 0.93对数单位,平均为0.62对数单位。与之前的“溶解度挑战”不同的是:新的“溶解度挑战”不提供一个“标准”训练集,而是允许参赛者使用自己的log S0(25℃)实验数据作为训练集来构建模型。对于手头没有足够数据的新参与者,作者在文中提供了含有可靠溶解度数据的18篇参考文献。
作者强调:新“溶解度挑战”的目标不在于找出“谁”是赢家,而是希望找出“哪种”方法预测溶解度效果最好。为了鼓励具有不同经验或水平的人员参与,参赛者的身份最终不会透露。参与此次竞赛的具体方法为:填写提交表格中的所有空白字段,其中包含两个测试集中每种化合物固有溶解度值的预测值(以摩尔对数单位表示),并提供预测方法的简要说明(训练集数据的来源、性质以及使用的描述符类型),并将Excel文件发送给JCIM杂志主编Kenneth M. Merz教授 (eic@jcim.acs.org),邮件主题为:Solubility Challenge。提交时间不迟于2019年9月8日,参与者可单独提交不超过三次。此次挑战将由JCIM论文的作者Llinas等人评估预测结果,JCIM将邀请预测结果最佳者提交论文发表。
“溶解度挑战”重现江湖,再次刺激到本领域的兴奋点。新的挑战基于更大规模、高质量溶解度实验数据,提供了标准化的测试集来横向比较各种参赛方法。哪种方法将在此次挑战中拔得头筹,小编拭目以待。改革春风吹满地,中国人民真争气。各位看官还等什么,还不赶紧参与进来!
参考文献:
(1) Llinas, A.; Glen, R. C.; Goodman, J. M. Solubility challenge: Can you predict solubilities of 32 molecules using a database of 100 reliable measurements? J. Chem. Inf. Model. 2008, 48, 1289−1303.
(2) Hopfinger, A. J.; Esposito, E. X.; Llinas, A.; Glen, R. C.; Goodman, J. M. Findings of the challenge to predict aqueous solubility. J. Chem. Inf. Model. 2009, 49, 1−5.
(3) Llinas, A.;Avdeef,A. Solubility Challenge Revisited after Ten Years, with Multi-lab Shake-Flask Data, Using Tight (SD ∼ 0.17 log) and Loose (SD ∼ 0.62 log) Test Sets. J. Chem. Inf. Model. 2019, 59, 3036-3040.
网友评论