科研资讯
新的反应描述语言可编码化学变化中的分子编辑操作
研发家 | 2025-05-16
21

中国科学院上海药物研究所研究员郑明月团队报道了一种名为ReactSeq反应描述语言,它可以编码化学变化中的分子编辑操作,使自然语言理解模型(NLP)它在逆生成预测、反应表征检索、交互问答等方面表现得更好。五月十三日,《自然-机器智能》发表了相关研究。

以大语言模型为代表的人工智能(AI)技术在自然语言理解方面取得了前所未有的突破,正在深刻改变科学研究的范式。近年来,化学语言模型在化学和药物研发领域处理化学分子和反应(CLMs)逐渐兴起。由于化学分子缺乏固有的顺序,CLM使用科学家定义的分子线性代码来学习和生成分子结构。目前最常用的分子线性代码是简化分子输入线输入系统(SMILES)。

为了提高CLMs在特定任务中的表现,学术界为了描述化学分子的静态结构,制定了一些新的分子线性编码语言。然而,这些语言不能清楚地描述分子中原子和键在化学反应过程中的变化过程,严重限制了语言模型在化学变化预测和表达中的应用。

研究小组设计了一种新的化学变化描述语言ReactSeq,以克服上述挑战。ReactSeq定义了一系列分子编辑操作,从产品结构出发,将其转化为生成分子所需要的。(MEO),包括离子键的断裂和变化,原子电荷的变化,以及离基团的附着力。在基于ReactSeq的逆生成模型中,生成物通过这些MEO从产品分子转换,保证了预测生成物和产品之间的精确原子投射,增强了模型的可解释性。

使用ReactSeq,不影响基本变换器。(Transformer)在结构的情况下,我们可以在逆生成预测中获得最先进的性能。同时,ReactSeq有一个显式令牌来表示MEO,可以编码和提醒人们的指令。测试结果表明,人类专家的提示可以显著提高模型性能,甚至引导语言模型探索新的反应。这些MEO令牌也有助于提取反应表示,并能产生更准确、更内在的化学反应表示。

研究团队基于这一策略,结合自我监督学习,构建了一种通用可靠的反应表达方法,可以自然区分反应类型,评估其相似性,从而提高类似反应检索、实验流程推荐、反应率预测等一系列下游任务的表现。

研究小组表示,这项研究为垂直领域的大语言模型提供了许多新的能力,显著提高了自然语言理解模型应对复杂化学问题的能力,为化学领域开发人工智能基础模型提供了新的思路。

版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
分享

赞一个

19