Inteligencia artificial y supercomputadoras para diseñar proteínas
Ciencia y TecnologíaEl martesYerandi SantanaAprovechando el poder de la inteligencia artificial y varias de las supercomputadoras más rápidas del mundo, un equipo de investigación ha desarrollado un innovador sistema para acelerar el diseño de nuevas proteínas.
El equipo ha sido liderado desde el Laboratorio Nacional de Argonne en Estados Unidos. Cinco supercomputadoras han sido empleadas. Una de ellas ha sido la del citado laboratorio llamada Aurora. Las otras han sido: Frontier del Laboratorio Nacional de Oak Ridge en Estados Unidos, Alps en el Centro Nacional Suizo de Supercomputación, Leonardo del centro CINECA en Italia y la Máquina PDX en la corporación NVIDIA. Se consiguió superar 1 exaflop de rendimiento sostenido en cada supercomputadora, con un rendimiento máximo de 5,57 exaflops en Aurora.
El sistema desarrollado por el citado equipo, que incluye a Arvind Ramanathan, Gautham Dharuman y otros, se llama MProt-DPO. Las siglas “DPO” en este nombre significan “Optimización de Preferencia Directa”. El algoritmo DPO ayuda a los modelos de inteligencia artificial a mejorar aprendiendo de los resultados preferidos y de los no preferidos. Al adaptar el DPO al diseño de proteínas, el equipo consiguió que su sistema aprendiera de los resultados experimentales y de las simulaciones a medida que se producían.
Una de las principales innovaciones de MProt-DPO es su capacidad para integrar distintos tipos de formatos de datos. Combina datos tradicionales de secuenciación de proteínas con resultados experimentales, simulaciones moleculares e incluso explicaciones en texto escrito que proporcionen detalles sobre las propiedades de cada proteína. Este enfoque tiene el potencial de acelerar el descubrimiento de proteínas para una amplia gama de aplicaciones.
Pongamos por ejemplo que se busca crear una nueva vacuna o diseñar una enzima que pueda descomponer plásticos para reciclarlos de forma respetuosa con el medio ambiente. En cualquiera de estos dos casos y en otros, el nuevo sistema basado en inteligencia artificial y supercomputadoras puede ayudar a los investigadores a centrarse en proteínas prometedoras de entre innumerables posibilidades, incluidas candidatas que pueden no existir en la naturaleza.
Relacionar la secuencia de aminoácidos de una proteína con su estructura y función es un viejo reto para la investigación. Cada disposición única de aminoácidos (los componentes básicos de las proteínas) puede dar lugar a propiedades y comportamientos diferentes. El enorme volumen de posibles variaciones hace que no resulte práctico comprobarlas todas únicamente mediante experimentos.
Para ponerlo en perspectiva, modificar solo tres aminoácidos en una secuencia de 20 crea 8.000 combinaciones posibles. Pero la mayoría de las proteínas son mucho más complejas, y algunos objetivos de investigación contienen cientos o miles de aminoácidos.
“Por ejemplo, si cambiamos la posición de 77 aminoácidos dentro de una proteína de 300 aminoácidos, estamos ante un espacio de diseño de un gúgol (un uno seguido por cien ceros) para representar las posibilidades únicas”, explica Dharuman. Es por ello que se necesitan supercomputadoras y grandes sistemas de inteligencia artificial, tal como justifica Dharuman.
Ciertamente, trabajando con varios miles de millones de parámetros, y una cantidad de datos aún mayor, existe una obvia necesidad de trabajar con supercomputadoras. Más aún si tenemos en cuenta que la labor incluye realizar simulaciones a gran escala para verificar la estabilidad y actividad catalítica de las secuencias proteicas generadas.
El funcionamiento de la inteligencia artificial en MProt-DPO no es muy distinto al del popular ChatGPT. En el caso de ChatGPT, los usuarios humanos proporcionan información sobre si una respuesta es útil o no. Esa información se devuelve al algoritmo de entrenamiento para ayudar al modelo a aprender sus preferencias. MProt-DPO funciona de forma similar, pero la interacción mediante texto con humanos se sustituye por los datos experimentales y de simulación para ayudar al sistema a determinar qué diseños de proteínas tienen más éxito.
El equipo probó MProt-DPO en dos tareas para demostrar su capacidad de afrontar retos complejos de diseño de proteínas. En primer lugar, se centraron en la proteína de levadura HIS7, utilizando datos experimentales para mejorar el rendimiento de varias mutaciones. Para la segunda tarea, trabajaron con la malato deshidrogenasa, una enzima que desempeña un papel clave en cómo las células producen energía. Utilizando datos de simulación, optimizaron el diseño de la enzima para mejorar su eficiencia catalítica.
Ahora, el equipo colabora con biólogos del Laboratorio Nacional de Argonne para validar en laboratorio los diseños generados mediante inteligencia artificial. Las pruebas realizadas hasta ahora demuestran que los diseños tienen las características esperadas.