清华大学罗三中团队:H-SPOC-基于新型3D分子描述符的pKa 高精度机器学习预测
酸解离常数(pKa)是最重要的有机化学基础数据之一,是衡量分子解离氢质子能力的热力学标度,在合成化学、生物化学、药物化学、精细化工等诸多领域均有重要应用。目前可以精准确定的pKa大多为分子热力学平衡条件下的表观酸性(称为macro-pKa),而对于分子中特定位点和官能团的酸性(micro- pKa)以及涉及分子间相互作用的超分子体系(supra-pKa)仍缺乏有效测定和预测方法。相比macro-pKa,micro- pKa探微知著,能更准确反映了分子内部微环境的相互影响,对研究分子性质、构效关系等具有重要意义;而supra-pKa主要体现了分子在与其他环境分子的耦合与相互作用中的酸性,是化学反应和生物过程研究的重要参考。在复杂分子系统中,多变的分子微环境会对micro-pKa和supra-pKa产生重大影响,而现在的实验/计算方法难以考虑到这一点,因此获取micro-pKa和supra-pKa仍面临重大挑战。近日,清华大学罗三中团队基于iBond数据库,发展了新一代机器学习预测pKa模型:H-SPOC,同时实现了对micro-pKa和supra-pKa的高精度预测。
人工智能和机器学习技术的进步,为精准预测micro-pKa和supra-pKa提供了新的路径。近年来,机器学习预测pKa取得了显著进步,发展了系列高精度预测模型如MolGpKa, Graph-pKa, pka-solver, MF-SuP-pKa, Uni-pKa, AttenGpKa等,能有效应用于micro-pKa预测,但多数模型忽视了分子微环境影响,也无法解决supra-pKa问题。
2020年,罗三中课题组利用物理有机描述符SPOC首次实现了不同溶剂环境中的分子pKa预测 (Angew. Chem. Int. Ed. 2020, 59, 19282-19291.) 在此基础上,该团队设计了一种新型3D描述符,H-SPOC,可准确捕捉质子解离位点附近的微环境特征,同时考虑氢键和空间相互作用。基于直观的化学描述符设计结合简单的XGBoost算法,新一代的H-SPOC模型表现仍优于其他基于分子图和深度学习的方法。模型在著名的SAMPL6、SAMPL7、和SAMPL8等基准挑战中取得了最佳结果,证明了其强大的预测能力。模型还在诸多不同领域展现了应用潜力,比如可实现对药物不同晶型supra-pKa的预测,为评估晶型药物活性提供了新的量化参数。预测值可以与晶体的热力学稳定性△G和药代动力学性能KT50(在药物测试中杀死一半害虫所需时间)成良好的线性相关。
H-SPOC使用化学直观的物理化学描述方法,结合实用高效的机器学习框架,实现了对复杂环境中分子pKa的高精度预测。模型展示了卓越的预测准确性和广泛的适用性,为快速、精确地预测分子酸性提供了一个高效的手段,在药物发现、催化和材料科学研究中具有巨大潜力。该团队还建立了线上预测网站,供相关研究者交流使用。(http://hspoc.luoszgroup.com:13500/hspoc/)
(网站二维码)
论文信息:
Highly Precise Prediction of Micro- and Supra-pKa Based on 3D Descriptors Integrating Non-Covalent Interactions
Siyuan Liu, Qi Yang*, Long Zhang, Sanzhong Luo*
Angewandte Chemie International Edition DOI: 10.1002/anie.202424069