Angew. Chem. | 合成适用域(SynAD):为AI驱动的反应预测提供可靠导航
2026年1月22日,清华大学基础分子科学中心罗三中教授团队在Angewandte Chemie期刊上在线发表题为“Synthetic Applicability Domain (SynAD): Navigating Chemical Space for Reliable AI-Driven Reaction Prediction”的研究论文。罗三中教授和杨骐研究员为论文通讯作者,清华大学基础分子科学中心博士生谭臻至为论文第一作者。

近年来,AI在化学科学领域的应用显著增长,但其在向实际合成应用转化时面临着分布外(OOD)预测这一关键挑战。当前模型在处理训练集分布内的预测时表现优异,但在面对未知的催化剂、底物或反应条件时,其外推能力往往出现断崖式下降,阻碍了真实化学空间的反应发现。解决该瓶颈的关键在于划定AI模型的适用域(AD),以此界定模型的“认知界限”:边界内的反应因模型已充分学习而预测可靠,超出边界的反应则多属于不可靠的盲目外推。
以往的AD划分多局限于单一分子性质预测,缺乏对多组分动态反应体系的判断。针对这一不足,清华大学罗三中教授团队开发了“合成适用域(SynAD)”框架。该框架通过提取反应体系的化学特征,计算新反应与模型训练数据间的“化学距离”,从而自动且精准地评估预测的可靠性。SynAD为化学家提供了一种先验的实验优化工具:在SynAD范围内的反应,可信任AI预测以快速推进条件优化与底物拓展;而在SynAD之外的AI“盲区”,则指引化学家集中精力攻克未知的探索性前沿问题。

图1. a) 不同类型数据集的产率预测性能与化学空间覆盖率的关系。b) SynAD原理示意图。训练反应的邻域被定义为SynAD。模型通常能对SynAD内的反应(蓝色点)做出准确预测,而对SynAD外的反应(红色点)预测不准确。c) 构建SynAD的通用流程。
有机化学反应数据的质量与结构多样性是决定机器学习模型性能的基础。在本研究中,研究团队选择Ullmann反应作为SynAD框架的基准测试体系。他们收集了包含14599条Ullmann反应的数据集iSynth-Ullmann,并通过数据清洗构建了高质量的Ullmann反应数据集(ULD),共包含5495条反应数据。
研究团队构建了SPOC描述符,以全面表征反应物的物理化学特性。该体系融合了分子结构指纹、量子化学(QM)特征、溶剂参数以及反应时间、温度、催化剂负载量等宏观物理量。基于此描述符,研究评估了多种机器学习算法的产率预测性能。结果表明,XGBoost算法表现最优,其决定系数(R2)达0.62,平均绝对误差(MAE)为11.4%。

图2. a-c) 各类机器学习模型和描述的预测性能对比。d) 基于不同划分方式的训练集与测试集数据分布差异(左图)及其对应的预测性能(右图)。
尽管模型在随机数据划分下精度较高,但在更符合真实科研场景的严格划分模式下(基于配体、文献或发表年份),预测性能出现显著下降。降维可视化分析揭示了其本质原因:随机划分下,训练集与测试集分布高度重合;但在严格划分中,两者化学空间差异巨大。受限于AI算法的统计学属性,当目标反应偏离训练数据的分布空间时,预测性能往往会出现显著下降。
为明确模型的能力边界,研究团队提出了SynAD理论框架。该框架首先将已知反应转化为SPOC描述符以构建“已知化学空间”,并基于反应间的相似度自动计算“可靠性阈值”。对于待预测的新反应,SynAD会计算其与已知空间的“距离”:若距离小于阈值,说明新反应在模型的“熟悉范围”内(in-SynAD),预测产率具有高可信度;反之(out-of-SynAD)则可信度低。该框架完全由数据驱动,无需人工主观设定,并支持高通量评估。
为解决描述符维度过高的问题,SynAD引入了“模型自适应度量”机制。通过对描述符进行重要性加权,系统能更精准地判定反应的可预测性。此外,SynAD支持通过调整超参数控制评估的严苛度:更严格的参数虽会缩小in-SynAD的覆盖面,但能进一步提升其预测可靠性。

图3. 用训练反应(紫色点)和目标反应(灰色或红色点)确定新反应是否在SynAD内。
研究团队采用基于文献划分的ULD数据对SynAD进行了评估。在此划分模式下,同一篇文献中报道的底物或配体衍生结构被严格限制在测试集中。在多种适用域评估算法对比中,基于高斯核的核密度估计(KDE)和基于曼哈顿距离的Z-score K近邻(ZKNN)表现最优,显著胜过传统的置信度估计算法(如贝叶斯神经网络和高斯过程)。研究还证实,特征重要性加权对SynAD的划分能力起到决定性作用。

图4. 不同SynAD评估方法在5折文献划分ULD数据集上的性能基准测试。
为验证普适性,研究将测试拓展至其他文献反应及高通量实验(HTE)数据集。针对缺乏明确文献来源的HTE数据,研究采用基于核心催化剂/配体的划分策略,以最大化训练与测试集的物理化学差异,模拟真实探索新催化体系的场景。测试呈现出高度一致的规律:在严苛的划分下,所有常规数据集的基准模型均表现不佳;但在实施SynAD评估后,各类数据集的in-SynAD预测性能均获得了显著提升。
表1:不同数据集的SynAD评估结果概览

为了将SynAD概念拓展至宏观反应集,研究团队设计了群组评估指标“SynAD Score”以量化整类反应的预测难度。得分越接近1,表明体系中不可预测样本比例越大,整体创新度与探索价值越高;得分越接近0,则说明可预测性好、外推挑战小。
通过数据增强生成132万余条理论反应空间,研究团队实现了配体新颖度与预测挑战性的定量比较:氨基酸等成熟配体得分较低(约0.7);新兴草酰胺等高性能配体得分居中(0.75-0.85),表明其仍具可观的未知空间;极少研究的复杂配体因缺乏实验先例,得分极高。这与化学直觉高度吻合。

图5. a) 扩增反应空间的UMAP降维可视化分布。b-c) 不同配体类型的总体SynAD得分统计。 d-e) 基于时间线的历史文献SynAD得分演变和预测R2值。
此外,SynAD Score可用于定量评估历史文献的探索价值。将文献按发表时间排序,用历史数据建立模型计算新文献的SynAD Score。结果显示,绝大多数Ullmann反应文献发表时得分接近1,确实位于当时AI的预测能力之外;而少数得分低于0.5的文献则被历史模型精准预测(R2 > 0.9),证明其开拓性有限。
总结
针对机器学习在化学分布外(OOD)预测失效难题,清华大学罗三中教授团队开发了SynAD(合成适用域)框架。该框架建立了判定AI进行反应预测的可靠性标准,可以识别高置信度反应预测结果,并指导化学家规避冗余实验并靶向探索高价值未知空间。它不仅为AI模型的可靠性提供了统计学护栏,未来更将结合自动化平台,成为突破现有化学知识边界、加速全新合成与物质创制的核心驱动力。
论文信息:Zhenzhi Tan, Qi Yang*, Long Zhang, and Sanzhong Luo*. "Synthetic Applicability Domain (SynAD): Navigating Chemical Space for Reliable AI‐Driven Reaction Prediction." Angew. Chem. Int. Ed., 2026, e23874. DOI: 10.1002/anie.202523874
相关代码与数据集已开源于GitHub: https://github.com/deepsynthesis/synad