稳定性 Oracle:设计稳定蛋白质的强大工具

2024 年 10 月

在飞速发展的生物技术领域,能否设计出稳定性更强的蛋白质是一项严峻的挑战。无论是开发工业生物催化剂,还是设计更有效的药物生物制剂,能够承受展开和聚集的蛋白质都是必不可少的。能够准确预测氨基酸突变将如何影响蛋白质热力学稳定性的计算方法将彻底改变蛋白质工程过程。然而,到目前为止,现有的计算工具还难以可靠地识别稳定突变。

稳定甲骨文(Stability Oracle)是一种新的深度学习框架,在预测热力学稳定蛋白质突变方面优于最先进的方法。Stability Oracle 由德克萨斯大学奥斯汀分校的一个研究团队开发,它代表了我们在通过计算工程提高蛋白质稳定性方面的一大飞跃。

改进稳定性预测的必要性

蛋白质是生物界的 "工作母机",在生物体内执行着大量的关键功能。它们能够折叠成复杂的三维结构并保持这些结构,这对其功能至关重要。容易发生折叠或聚集的蛋白质通常效率较低,甚至完全丧失功能。

这是开发以蛋白质为基础的生物技术的一大挑战。例如,生产过程中使用的工业酶需要能够承受高温或有机溶剂等恶劣条件。同样,药用蛋白质药物也必须在生产、储存和服用过程中保持结构的完整性。提高这些蛋白质的热力学稳定性是当务之急。

传统上,这是一个费力的试错过程。研究人员会对蛋白质序列进行反复突变,通过实验测试其对稳定性的影响,然后逐步研究出更稳定的变体。但这种方法既耗时又耗费资源。能够准确预测突变对蛋白质稳定性影响的计算方法可以大大加快这一过程。

在过去的 15 年中,人们开发了多种计算稳定性预测工具,其中既有基于物理学的方法,也有机器学习方法。然而,这些方法一直在几个关键问题上挣扎,阻碍了它们对蛋白质工程产生变革性影响。

"缺乏数据和机器学习工程问题阻碍了深度学习算法对蛋白质稳定性预测产生类似生物学和化学其他领域的革命性影响,"稳定性甲骨文研究的主要作者之一丹尼尔-迪亚兹(Daniel Diaz)解释说。

主要挑战包括数据稀缺、偏差和泄漏,以及使用不恰当的性能指标。目前的数据集严重偏向于不稳定突变,稳定突变只占数据的 30% 或更少。训练集和测试集之间也存在大量重叠,导致性能评估过于乐观,无法反映真实世界的通用性。

也许最重要的是,该领域过于关注皮尔逊相关性和均方根误差(RMSE)等指标,而这些指标并不能充分反映模型识别稳定突变的能力--这是蛋白质工程应用的关键目标。

"迪亚兹指出:"这些指标的改进并不一定会转化为识别稳定突变的改进。"精确度、召回率和接收者操作特征曲线下面积等指标对于评估这些模型的实用性更有意义"。

稳定甲骨文介绍

为了应对这些长期存在的挑战,Stability Oracle 团队采取了多管齐下的方法,开发了新的数据整理技术、创新的深度学习架构和更合适的性能评估方法。

Stability Oracle 的基础是一个图变换器神经网络,它能学会从目标氨基酸残基周围的局部化学环境中提取结构特征。然后将这种 "屏蔽微环境 "与代表野生型和突变型氨基酸的嵌入相结合,预测突变导致的热力学稳定性变化(ΔΔG)。

"另一位主要作者龚成跃解释说:"Stability Oracle不依赖于计算生成的突变结构,因为突变结构既昂贵又容易出错。

这种设计选择使 Stability Oracle 能够从单个蛋白质结构出发,高效地生成所有 380 种可能的单点突变预测结果--与以前基于结构的方法相比,计算效率有了极大的提高。

为了应对数据挑战,研究人员策划了几个新的训练和测试数据集。他们使用序列聚类来确保训练集和测试集中蛋白质之间的重叠最小,这是正确评估泛化的关键步骤。

他们还引入了一种名为 "热力学排列"(TP)的新型数据扩充技术。TP 利用吉布斯自由能的状态函数特性,将相对较小的实验ΔΔG 测量数据集扩展为更大的、热力学上有效的数据集。重要的是,TP 生成了稳定突变和失稳突变的均衡分布,而不是之前工作中使用的严重倾斜的数据集。

"TP使我们能够更好地评估模型识别稳定突变的能力,这是蛋白质工程应用的关键目标,"Diaz指出。

除了TP增强数据集之外,研究小组还在一个由200多万个蛋白质稳定性测量数据组成的海量数据集上对Stability Oracle框架进行了微调,该数据集来自对天然和新的小型蛋白质结构域进行的高通量蛋白水解试验。

超越技术水平

With these innovations in data curation and model architecture, Stability Oracle demonstrates a remarkable ability to predict thermodynamically stabilizing protein mutations. On a rigorously curated test set, Stability Oracle achieved a precision of 0.70 and a recall of 0.69 in identifying stabilizing mutations (defined as ΔΔG < -0.5 kcal/mol).

重要的是,这种性能超过了现有的最先进计算工具,后者在识别稳定突变方面的成功率通常只有 20% 左右。Stability Oracle 在这项任务中的精确度与自由能扰动(FEP)方法不相上下,后者被认为是计算稳定性预测的黄金标准,但在大规模蛋白质工程应用中计算成本过高。

"这项研究的资深作者 Adam Klivans 说:"Stability Oracle 能够与 FEP 方法的性能相媲美,而且速度快了几个数量级,这是一项重大突破。

研究小组还通过微调功能强大的蛋白质语言模型ESM-2,开发出了与Stability Oracle相对应的基于序列的模型,称为Prostata-IFML。虽然 Prostata-IFML 也表现出了令人印象深刻的性能,但在一系列指标上,Stability Oracle 基于结构的方法仍然优于纯序列模型。

"Stability Oracle 的参数远远少于 Prostata-IFML,却能超越最先进的序列模型,这凸显了纳入结构信息的价值,"Gong 解释说。"蛋白质结构包含的关键信息不仅仅是氨基酸序列。

Stability Oracle 的结构意识还体现在它能够准确预测蛋白质不同区域的稳定突变。对模型预测结果的分析表明,该模型并不偏向于识别蛋白质表面与核心的稳定突变,而这正是以往基于结构的方法的一个常见局限。

"Diaz 指出:"Stability Oracle 能够很好地概括蛋白质溶剂暴露区和埋藏区的突变。"这是工程蛋白质增强稳定性的一项重要能力"。

加速蛋白质工程

Stability Oracle 性能的意义远不止于学术基准测试。该工具有可能大大加快各种基于蛋白质的生物技术的开发。

"准确识别稳定突变将影响一切,从预测更长保质期的蛋白质疗法,到能承受恶劣工业条件的酶工程,"合著者、蛋白质工程专家安德鲁-埃林顿(Andrew Ellington)说。

例如,在开发基于蛋白质的药物时,通过计算筛选数百万个潜在突变并找出最稳定的突变的能力可以大大减少实验优化的时间和成本。同样,在工业生物催化方面,Stability Oracle 可以指导工程设计出更耐变性的酶,从而扩大酶的应用范围。

除了预测单点突变的影响外,Stability Oracle 团队还在努力扩展框架,以处理更高阶的突变。"迪亚兹解释说:"数据稀缺是预测多个同时发生的突变的影响所面临的更大挑战。"但是,我们利用 Stability Oracle 开发的创新技术,如热力学排列,为解决这一问题提供了路线图。

研究人员还把 "稳定性甲骨文 "视为实现更广泛目标的垫脚石,即利用深度学习来指导从头开始设计高度稳定的蛋白质支架。"Klivans说:"如果我们能准确模拟突变如何影响稳定性,那么下一个前沿领域就是利用这些知识从头开始计算设计全新的蛋白质结构。

蛋白质工程的前进之路

Stability Oracle 的开发是利用深度学习的力量进行蛋白质工程学研究的一个重要里程碑。通过解决数据质量、模型架构和性能评估方面的长期挑战,该框架展示了人工智能引导的蛋白质设计改变广泛生物技术的潜力。

"迪亚兹总结说:"稳定性甲骨文为计算稳定性预测建立了一个新的基准,并为微调基于结构的转化器以适应几乎所有蛋白质表型提供了一条清晰的前进道路。"这是未来几年加快基于蛋白质的生物技术发展的必要任务。

随着蛋白质工程领域的不断发展,像 Stability Oracle 这样的工具无疑将发挥越来越重要的作用。通过让研究人员能够设计出更稳定、更有效的蛋白质产品,这项技术将对从制药到清洁能源等行业产生深远影响。生物技术的未来比以往任何时候都更加稳定。

参考文献

  1. https://doi.org/10.1038/s41467-024-49780-2

 

单击 TAGS 查看相关文章 :

生物学|生物技术|药物开发|医药医学|蛋白质

在 Pinterest 上 Pin It

黑暗药物

免费
查看