Oráculo de estabilidad: Una potente herramienta para diseñar proteínas estables

Oct, 2024

En el mundo de la biotecnología, en rápida evolución, la capacidad de diseñar proteínas con mayor estabilidad es un reto fundamental. Ya sea para desarrollar biocatalizadores industriales o para diseñar fármacos biológicos más eficaces, es esencial que las proteínas resistan el desdoblamiento y la agregación. Los métodos computacionales capaces de predecir con exactitud cómo afectarán las mutaciones de aminoácidos a la estabilidad termodinámica de una proteína podrían revolucionar el proceso de ingeniería proteínica. Sin embargo, hasta ahora, las herramientas computacionales existentes han tenido dificultades para identificar con fiabilidad las mutaciones estabilizadoras.

Stability Oracle es un nuevo marco de aprendizaje profundo que supera a los métodos más avanzados en la predicción de mutaciones proteicas termodinámicamente estabilizadoras. Desarrollado por un equipo de investigadores de la Universidad de Texas en Austin, Stability Oracle representa un gran avance en nuestra capacidad para diseñar computacionalmente proteínas con mayor estabilidad.

La necesidad de mejorar la predicción de la estabilidad

Las proteínas son los caballos de batalla de la biología y desempeñan una amplia gama de funciones críticas en los organismos vivos. Su capacidad para plegarse en complejas estructuras tridimensionales y mantenerlas es esencial para su funcionamiento. Las proteínas propensas a desdoblarse o agregarse suelen ser menos eficaces o incluso no funcionar en absoluto.

Se trata de un reto importante en el desarrollo de biotecnologías basadas en proteínas. Las enzimas industriales utilizadas en procesos de fabricación, por ejemplo, tienen que ser capaces de soportar condiciones duras como altas temperaturas o la presencia de disolventes orgánicos. Del mismo modo, las proteínas farmacéuticas deben mantener su integridad estructural durante la producción, el almacenamiento y la administración. Mejorar la estabilidad termodinámica de estas proteínas es una prioridad clave.

Tradicionalmente, éste ha sido un laborioso proceso de ensayo y error. Los investigadores hacían mutaciones iterativas en la secuencia de una proteína, comprobaban experimentalmente sus efectos sobre la estabilidad y se esforzaban por conseguir una variante más estable. Pero este método requiere mucho tiempo y recursos. Los métodos computacionales capaces de predecir con exactitud los efectos de las mutaciones en la estabilidad de las proteínas podrían acelerar enormemente este proceso.

En los últimos 15 años, se han desarrollado diversas herramientas de predicción computacional de la estabilidad, empleando enfoques basados tanto en la física como en el aprendizaje automático. Sin embargo, estos métodos se han enfrentado a varios problemas clave que les han impedido tener un impacto transformador en la ingeniería de proteínas.

"La falta de datos y los problemas de ingeniería de aprendizaje automático han impedido que los algoritmos de aprendizaje profundo tengan un impacto tan revolucionario en la predicción de la estabilidad de las proteínas como el que han tenido en otras áreas de la biología y la química", explica Daniel Díaz, uno de los autores principales del estudio Stability Oracle.

Los principales problemas son la escasez de datos, los sesgos y las fugas, así como el uso de métricas de rendimiento inadecuadas. Los conjuntos de datos actuales están muy sesgados hacia las mutaciones desestabilizadoras, y las mutaciones estabilizadoras representan sólo el 30% o menos de los datos. También hay un solapamiento significativo entre los conjuntos de entrenamiento y prueba, lo que lleva a evaluaciones de rendimiento demasiado optimistas que no reflejan la generalización en el mundo real.

Y lo que es más importante, el campo se ha centrado excesivamente en parámetros como la correlación de Pearson y el error cuadrático medio (RMSE), que no reflejan adecuadamente la capacidad de un modelo para identificar mutaciones estabilizadoras, el objetivo clave de las aplicaciones de ingeniería de proteínas.

"Las mejoras en estas métricas no se traducen necesariamente en mejoras para identificar mutaciones estabilizadoras", señala Díaz. "Métricas como la precisión, el recuerdo y el área bajo la curva receiver operating characteristic son mucho más relevantes para evaluar la utilidad práctica de estos modelos".

Presentación de Stability Oracle

Para hacer frente a estos retos de larga data, el equipo de Stability Oracle adoptó un enfoque múltiple, desarrollando nuevas técnicas de curación de datos, arquitecturas innovadoras de aprendizaje profundo y métodos de evaluación del rendimiento más adecuados.

La base de Stability Oracle es una red neuronal con transformador de grafos que aprende a extraer características estructurales del entorno químico local que rodea a un residuo de aminoácido. A continuación, este "microentorno enmascarado" se combina con incrustaciones que representan los aminoácidos silvestres y mutantes para predecir el cambio en la estabilidad termodinámica (ΔΔG) resultante de esa mutación.

"En lugar de basarse en estructuras mutantes generadas computacionalmente, que pueden ser caras y propensas a errores, Stability Oracle aprende a modelar implícitamente cómo interactúan los aminoácidos 'de' y 'a' con la química local", explica Chengyue Gong, otro de los autores principales.

Esta elección de diseño permite a Stability Oracle generar predicciones eficientes para las 380 posibles mutaciones de un solo punto a partir de una única estructura proteica, lo que supone una gran mejora de la eficiencia computacional con respecto a métodos anteriores basados en estructuras.

Para hacer frente a los retos que planteaban los datos, los investigadores crearon nuevos conjuntos de datos de entrenamiento y prueba. Utilizaron la agrupación de secuencias para garantizar un solapamiento mínimo entre las proteínas de los conjuntos de entrenamiento y de prueba, un paso fundamental para evaluar correctamente la generalización.

También introdujeron una novedosa técnica de aumento de datos denominada "permutaciones termodinámicas" (PT). La TP aprovecha la propiedad de función de estado de la energía libre de Gibbs para ampliar un conjunto relativamente pequeño de mediciones experimentales de ΔΔG y convertirlo en un conjunto de datos mucho más amplio y termodinámicamente válido. Es importante destacar que TP genera una distribución equilibrada de mutaciones estabilizadoras y desestabilizadoras, en lugar de los conjuntos de datos muy sesgados utilizados en trabajos anteriores.

"El TP nos permite evaluar mejor la capacidad de un modelo para identificar mutaciones estabilizadoras, que es el objetivo clave para las aplicaciones de ingeniería de proteínas", señala Díaz.

Además de los conjuntos de datos mejorados con TP, el equipo también perfeccionó el marco Stability Oracle en un enorme conjunto de datos de más de 2 millones de mediciones de estabilidad de proteínas, derivadas de un ensayo de proteólisis de alto rendimiento en minidominios proteicos naturales y de novo.

Superar el estado del arte

With these innovations in data curation and model architecture, Stability Oracle demonstrates a remarkable ability to predict thermodynamically stabilizing protein mutations. On a rigorously curated test set, Stability Oracle achieved a precision of 0.70 and a recall of 0.69 in identifying stabilizing mutations (defined as ΔΔG < -0.5 kcal/mol).

Y lo que es más importante, este rendimiento supera al de las herramientas computacionales más avanzadas, que normalmente sólo consiguen un 20% de éxito en la identificación de mutaciones estabilizadoras. La precisión de Stability Oracle en esta tarea no tiene nada que envidiar a la de los métodos de perturbación de la energía libre (FEP), considerados el patrón oro de la predicción computacional de la estabilidad, pero que resultan prohibitivamente caros para las aplicaciones de ingeniería de proteínas a gran escala.

"La capacidad de Stability Oracle para igualar el rendimiento de los métodos FEP, siendo varios órdenes de magnitud más rápido, es un gran avance", afirma Adam Klivans, autor principal del estudio.

El equipo también desarrolló un homólogo de Stability Oracle basado en secuencias, denominado Prostata-IFML, ajustando el potente modelo de lenguaje proteínico ESM-2. Aunque Prostata-IFML también demostró un rendimiento impresionante, el enfoque basado en estructuras de Stability Oracle superó al modelo basado únicamente en secuencias en una serie de métricas.

"El hecho de que Stability Oracle, con muchos menos parámetros que Prostata-IFML, pueda superar a un modelo de secuencia de última generación pone de relieve el valor de incorporar información estructural", explica Gong. "Las estructuras de las proteínas contienen información crítica que va más allá de la mera secuencia de aminoácidos".

El conocimiento estructural de Stability Oracle queda patente en su capacidad para predecir con precisión mutaciones estabilizadoras en distintas regiones de una proteína. El análisis de las predicciones del modelo no mostró ningún sesgo hacia la identificación de mutaciones estabilizadoras en la superficie de la proteína frente al núcleo, una limitación común de los métodos anteriores basados en la estructura.

"Stability Oracle es capaz de generalizar bien las mutaciones tanto en las regiones expuestas al disolvente como en las enterradas de la proteína", señala Díaz. "Se trata de una capacidad importante para diseñar proteínas con mayor estabilidad".

Acelerar la ingeniería de proteínas

Las implicaciones del rendimiento de Stability Oracle van mucho más allá de la mera evaluación comparativa académica. Esta herramienta tiene el potencial de acelerar drásticamente el desarrollo de una amplia gama de biotecnologías basadas en proteínas.

"La identificación precisa de las mutaciones estabilizadoras repercutirá en todos los ámbitos, desde la predicción de terapias proteínicas con mayor vida útil hasta la ingeniería de enzimas capaces de soportar duras condiciones industriales", afirma Andrew Ellington, coautor y experto en ingeniería de proteínas.

Por ejemplo, en el desarrollo de fármacos basados en proteínas, la capacidad de examinar computacionalmente millones de posibles mutaciones e identificar las más estabilizadoras podría reducir enormemente el tiempo y el coste de la optimización experimental. Del mismo modo, en la biocatálisis industrial, Stability Oracle podría guiar la ingeniería de enzimas más resistentes a la desnaturalización, ampliando la gama de procesos a los que pueden aplicarse.

Además de predecir los efectos de mutaciones puntuales, el equipo de Stability Oracle ya está trabajando en la ampliación del marco para gestionar mutaciones de orden superior. "La escasez de datos es un reto aún mayor para predecir los efectos de múltiples mutaciones simultáneas", explica Díaz. "Pero las innovaciones que hemos desarrollado con Stability Oracle, como las permutaciones termodinámicas, proporcionan una hoja de ruta para abordar este problema".

Los investigadores también ven Stability Oracle como un peldaño hacia un objetivo más amplio de utilizar el aprendizaje profundo para guiar el diseño de novo de andamiajes proteicos altamente estables. "Si podemos modelar con precisión el impacto de las mutaciones en la estabilidad, la siguiente frontera será utilizar ese conocimiento para diseñar computacionalmente estructuras proteicas completamente nuevas desde cero", afirma Klivans.

Un camino hacia la ingeniería de proteínas

El desarrollo de Stability Oracle representa un hito importante en la búsqueda de aprovechar el poder del aprendizaje profundo para la ingeniería de proteínas. Al abordar los retos que se plantean desde hace tiempo en la calidad de los datos, la arquitectura de los modelos y la evaluación del rendimiento, este marco demuestra el potencial del diseño de proteínas guiado por IA para transformar una amplia gama de biotecnologías.

"Stability Oracle establece un nuevo punto de referencia para la predicción computacional de la estabilidad, y proporciona un claro camino a seguir para ajustar los transformadores basados en estructuras a prácticamente cualquier fenotipo proteico", concluye Díaz. "Se trata de una tarea necesaria para acelerar el desarrollo de biotecnologías basadas en proteínas en los próximos años".

A medida que el campo de la ingeniería de proteínas siga evolucionando, herramientas como Stability Oracle desempeñarán sin duda un papel cada vez más central. Al permitir a los investigadores diseñar productos basados en proteínas más estables y eficaces, esta tecnología podría tener repercusiones de gran alcance en sectores que van desde el farmacéutico hasta el de las energías limpias. El futuro de la biotecnología parece más estable que nunca.

Referencia(s)

  1. https://doi.org/10.1038/s41467-024-49780-2

 

Pulse TAGS para ver artículos relacionados :

BIOLOGÍA | BIOTECNOLOGÍA | DESARROLLO DE FÁRMACOS | MEDICINA FARMACÉUTICA | PROTEÍNAS

Pínchalo en Pinterest

DarkDrug

GRATIS
VER