Stability Oracle : Un outil puissant pour l'ingénierie des protéines stables

octobre 2024

Dans le monde de la biotechnologie, qui évolue rapidement, la capacité à concevoir des protéines plus stables est un défi majeur. Qu'il s'agisse de développer des biocatalyseurs industriels ou de concevoir des produits biologiques pharmaceutiques plus efficaces, il est essentiel que les protéines puissent résister au dépliage et à l'agrégation. Les méthodes informatiques capables de prédire avec précision l'impact des mutations d'acides aminés sur la stabilité thermodynamique d'une protéine pourraient révolutionner le processus d'ingénierie des protéines. Cependant, jusqu'à présent, les outils informatiques existants ont eu du mal à identifier de manière fiable les mutations stabilisatrices.

Entrez dans Stability Oracle, un nouveau cadre d'apprentissage profond qui surpasse les méthodes de pointe dans la prédiction des mutations de protéines thermodynamiquement stabilisantes. Développé par une équipe de chercheurs de l'Université du Texas à Austin, Stability Oracle représente une avancée majeure dans notre capacité à concevoir informatiquement des protéines plus stables.

Nécessité d'améliorer les prévisions de stabilité

Les protéines sont les bêtes de somme de la biologie, remplissant une vaste gamme de fonctions critiques au sein des organismes vivants. Leur capacité à se replier en structures tridimensionnelles complexes et à maintenir ces structures est essentielle à leur fonctionnement. Les protéines qui ont tendance à se déplier ou à s'agréger sont souvent moins efficaces, voire complètement inopérantes.

Il s'agit là d'un défi majeur pour le développement des biotechnologies basées sur les protéines. Les enzymes industrielles utilisées dans les processus de fabrication, par exemple, doivent pouvoir résister à des conditions difficiles telles que des températures élevées ou la présence de solvants organiques. De même, les protéines pharmaceutiques doivent conserver leur intégrité structurelle pendant la production, le stockage et l'administration. L'amélioration de la stabilité thermodynamique de ces protéines est une priorité essentielle.

Traditionnellement, il s'agissait d'un processus laborieux d'essais et d'erreurs. Les chercheurs procédaient à des mutations itératives de la séquence d'une protéine, testaient expérimentalement les effets sur la stabilité et travaillaient progressivement à l'obtention d'une variante plus stable. Mais cette approche prend beaucoup de temps et nécessite de nombreuses ressources. Des méthodes informatiques capables de prédire avec précision les effets des mutations sur la stabilité des protéines pourraient accélérer considérablement ce processus.

Au cours des 15 dernières années, une variété d'outils informatiques de prédiction de la stabilité ont été développés, utilisant à la fois des approches basées sur la physique et sur l'apprentissage automatique. Toutefois, ces méthodes ont été confrontées à plusieurs problèmes clés qui les ont empêchées d'avoir un impact transformateur sur l'ingénierie des protéines.

"Le manque de données et les problèmes d'ingénierie de l'apprentissage automatique ont empêché les algorithmes d'apprentissage profond d'avoir un impact aussi révolutionnaire sur la prédiction de la stabilité des protéines que celui qu'ils ont eu dans d'autres domaines de la biologie et de la chimie", explique Daniel Diaz, l'un des principaux auteurs de l'étude Stability Oracle.

Les principaux défis sont la rareté des données, les biais et les fuites, ainsi que l'utilisation de mesures de performance inappropriées. Les ensembles de données actuels sont fortement biaisés en faveur des mutations déstabilisantes, les mutations stabilisantes ne représentant que 30 % ou moins des données. Il existe également un chevauchement important entre les ensembles de formation et de test, ce qui conduit à des évaluations de performance trop optimistes qui ne reflètent pas la généralisation dans le monde réel.

Plus important encore peut-être, le domaine s'est trop concentré sur des mesures telles que la corrélation de Pearson et l'erreur quadratique moyenne (RMSE), qui ne rendent pas compte de manière adéquate de la capacité d'un modèle à identifier les mutations stabilisantes - l'objectif clé pour les applications d'ingénierie des protéines.

"L'amélioration de ces paramètres ne se traduit pas nécessairement par une amélioration de l'identification des mutations stabilisatrices", note M. Diaz. "Des mesures telles que la précision, le rappel et l'aire sous la courbe caractéristique d'exploitation du récepteur sont beaucoup plus pertinentes pour évaluer l'utilité pratique de ces modèles.

Présentation de Stability Oracle

Pour relever ces défis de longue date, l'équipe de Stability Oracle a adopté une approche sur plusieurs fronts, en développant de nouvelles techniques de curation des données, des architectures innovantes d'apprentissage profond et des méthodes d'évaluation des performances plus appropriées.

Le fondement de Stability Oracle est un réseau neuronal à transformateur de graphe qui apprend à extraire des caractéristiques structurelles de l'environnement chimique local entourant un résidu d'acide aminé cible. Ce "microenvironnement masqué" est ensuite combiné avec des encastrements représentant les acides aminés de type sauvage et mutant pour prédire le changement de stabilité thermodynamique (ΔΔG) résultant de cette mutation.

Plutôt que de s'appuyer sur des structures mutantes générées par calcul, qui peuvent être coûteuses et sujettes aux erreurs, Stability Oracle apprend à modéliser implicitement la manière dont les acides aminés "de" et "à" interagissent avec la chimie locale", explique Chengyue Gong, un autre auteur principal.

Ce choix de conception permet à Stability Oracle de générer efficacement des prédictions pour l'ensemble des 380 mutations ponctuelles possibles à partir d'une seule structure de protéine, ce qui représente une amélioration considérable de l'efficacité de calcul par rapport aux méthodes précédentes basées sur la structure.

Pour relever les défis posés par les données, les chercheurs ont créé plusieurs nouveaux ensembles de données d'entraînement et de test. Ils ont utilisé le regroupement de séquences pour garantir un chevauchement minimal entre les protéines des ensembles de formation et de test, une étape essentielle pour évaluer correctement la généralisation.

Ils ont également introduit une nouvelle technique d'augmentation des données appelée "permutations thermodynamiques" (TP). Les permutations thermodynamiques tirent parti de la propriété de fonction d'état de l'énergie libre de Gibbs pour élargir un ensemble relativement restreint de mesures expérimentales ΔΔG en un ensemble de données beaucoup plus vaste et valide sur le plan thermodynamique. Il est important de noter que TP génère une distribution équilibrée de mutations stabilisantes et déstabilisantes, plutôt que les ensembles de données fortement asymétriques utilisés dans les travaux antérieurs.

"Le TP nous permet de mieux évaluer la capacité d'un modèle à identifier les mutations stabilisantes, ce qui est l'objectif principal des applications d'ingénierie des protéines", note M. Diaz.

Outre les ensembles de données augmentés par TP, l'équipe a également affiné le cadre de Stability Oracle sur un ensemble massif de données de plus de 2 millions de mesures de la stabilité des protéines, dérivées d'un essai de protéolyse à haut débit sur des domaines de mini-protéines naturelles et de novo.

Surpasser l'état de l'art

With these innovations in data curation and model architecture, Stability Oracle demonstrates a remarkable ability to predict thermodynamically stabilizing protein mutations. On a rigorously curated test set, Stability Oracle achieved a precision of 0.70 and a recall of 0.69 in identifying stabilizing mutations (defined as ΔΔG < -0.5 kcal/mol).

Il est important de noter que cette performance surpasse celle des outils de calcul de pointe existants, qui n'atteignent généralement qu'environ 20 % de réussite dans l'identification des mutations stabilisantes. La précision de Stability Oracle dans cette tâche est comparable aux méthodes de perturbation de l'énergie libre (FEP), qui sont considérées comme l'étalon-or pour la prédiction informatique de la stabilité, mais dont le coût de calcul est prohibitif pour les applications d'ingénierie des protéines à grande échelle.

"La capacité de Stability Oracle à égaler les performances des méthodes FEP, tout en étant plus rapide de plusieurs ordres de grandeur, constitue une avancée majeure", déclare Adam Klivans, auteur principal de l'étude.

L'équipe a également développé une contrepartie de Stability Oracle basée sur les séquences, appelée Prostata-IFML, en affinant le puissant modèle de langage des protéines ESM-2. Bien que Prostata-IFML ait également démontré des performances impressionnantes, l'approche de Stability Oracle basée sur la structure a tout de même surpassé le modèle basé sur les séquences dans toute une série de mesures.

"Le fait que Stability Oracle, avec beaucoup moins de paramètres que Prostata-IFML, puisse surpasser un modèle de séquence de pointe souligne la valeur de l'incorporation d'informations structurelles", explique M. Gong. "Les structures des protéines contiennent des informations essentielles qui vont au-delà de la simple séquence d'acides aminés.

La connaissance structurelle de Stability Oracle est également démontrée par sa capacité à prédire avec précision les mutations stabilisantes dans les différentes régions d'une protéine. L'analyse des prédictions du modèle n'a pas montré de biais dans l'identification des mutations stabilisantes sur la surface de la protéine par rapport au cœur, une limitation commune des méthodes précédentes basées sur la structure.

"Stability Oracle est capable de s'adapter aux mutations dans les régions de la protéine exposées aux solvants ou enfouies", note M. Diaz. "Il s'agit d'une capacité importante pour l'ingénierie des protéines à stabilité améliorée.

Accélérer l'ingénierie des protéines

Les implications des performances de Stability Oracle vont bien au-delà de la simple analyse comparative universitaire. Cet outil a le potentiel d'accélérer considérablement le développement d'une large gamme de biotechnologies basées sur les protéines.

"L'identification précise des mutations stabilisatrices aura un impact sur tous les domaines, de la prédiction de protéines thérapeutiques ayant une durée de conservation plus longue à la conception d'enzymes capables de résister à des conditions industrielles difficiles", explique Andrew Ellington, coauteur et expert en ingénierie des protéines.

Par exemple, dans le développement de médicaments à base de protéines, la capacité de cribler informatiquement des millions de mutations potentielles et d'identifier les plus stabilisantes pourrait réduire considérablement le temps et le coût de l'optimisation expérimentale. De même, dans le domaine de la biocatalyse industrielle, Stability Oracle pourrait guider la conception d'enzymes plus résistantes à la dénaturation, élargissant ainsi la gamme des processus auxquels elles peuvent être appliquées.

Au-delà de la prédiction des effets des mutations ponctuelles, l'équipe de Stability Oracle travaille déjà à l'extension du cadre pour traiter les mutations d'ordre supérieur. "Le manque de données est un défi encore plus grand pour prédire les effets de multiples mutations simultanées", explique M. Diaz. "Mais les innovations que nous avons développées avec Stability Oracle, comme les permutations thermodynamiques, fournissent une feuille de route pour résoudre ce problème.

Les chercheurs considèrent également Stability Oracle comme un tremplin vers un objectif plus large, à savoir l'utilisation de l'apprentissage profond pour guider la conception de novo d'échafaudages protéiques hautement stables. "Si nous pouvons modéliser avec précision l'impact des mutations sur la stabilité, la prochaine frontière consistera à utiliser ces connaissances pour concevoir informatiquement des structures protéiques entièrement nouvelles", explique M. Klivans.

Une voie d'avenir pour l'ingénierie des protéines

Le développement de Stability Oracle représente une étape importante dans la quête de l'exploitation de la puissance de l'apprentissage profond pour l'ingénierie des protéines. En relevant des défis de longue date en matière de qualité des données, d'architecture des modèles et d'évaluation des performances, ce cadre démontre le potentiel de la conception de protéines guidée par l'IA pour transformer un large éventail de biotechnologies.

"Stability Oracle établit une nouvelle référence pour la prédiction computationnelle de la stabilité et fournit une voie claire pour l'ajustement des transformateurs basés sur la structure à pratiquement n'importe quel phénotype de protéine", conclut M. Diaz. "Il s'agit d'une tâche nécessaire pour accélérer le développement des biotechnologies basées sur les protéines dans les années à venir.

À mesure que le domaine de l'ingénierie des protéines continue d'évoluer, des outils tels que Stability Oracle joueront sans aucun doute un rôle de plus en plus central. En permettant aux chercheurs de concevoir des produits à base de protéines plus stables et plus efficaces, cette technologie pourrait avoir des répercussions considérables sur des secteurs allant des produits pharmaceutiques à l'énergie propre. L'avenir de la biotechnologie semble plus stable que jamais.

Référence(s)

  1. https://doi.org/10.1038/s41467-024-49780-2

 

Cliquez sur TAGS pour voir les articles connexes :

BIOLOGIE | BIOTECHNOLOGIE | DÉVELOPPEMENT DE MÉDICAMENTS | MÉDECINE PHARMACEUTIQUE | PROTÉINES

L'épingler sur Pinterest

DarkDrug

GRATUIT
VIEW