En solo 15 días, una nueva Inteligencia Artificial (IA) desarrollada por la empresa Meta, la empresa matriz de Facebook e Instagram, ha logrado predecir las estructuras desconocidas de más de 600 millones de proteínas pertenecientes a virus, bacterias y otros microbios. El programa, llamado ESMFold, usó un modelo readaptado, que fue originalmente diseñado para decodificar lenguajes humanos.

Un programa de Inteligencia Artificial (IA), desarrollado por la corporación estadounidense Meta y denominado ESMFold, ha logrado predecir en dos semanas de trabajo alrededor de 617 millones de estructuras de proteínas, desconocidas hasta hoy para la ciencia. La identificación de estas proteínas permitirá descubrir virus, bacterias y microbios desconocidos, crear nuevos fármacos y reconocer las relaciones entre las estructuras proteicas de organismos antiguos y modernos, entre otras posibles aplicaciones.

Las formas de las proteínas

Las proteínas son los componentes primordiales de todos los seres vivos: se forman a partir de largas y sinuosas cadenas de aminoácidos, unas diminutas unidades moleculares que se integran en infinitas combinaciones, hasta crear la estructura tridimensional de una proteína. Si se conoce la forma de una proteína se puede entender su función, pero existe un número increíble de formas en las cuales una misma combinación de aminoácidos, en diferentes secuencias, puede terminar “diseñando” una proteína. ¿Cómo identificar, entonces, la forma de una proteína dentro de un universo tan amplio de posibilidades?

Actualmente, la técnica más empleada para determinar la estructura de una proteína es la cristalografía de rayos X, pero se trata de un método complejo y lento, que puede llevar meses o años para producir resultados. Además, no funciona para todos los tipos de proteínas. Después de décadas de trabajo, solamente se han descifrado alrededor de 100.000 estructuras de proteínas mediante cristalografía de rayos X.

Según una publicación en el blog de Meta, los especialistas de la empresa matriz de las redes sociales Facebook e Instagram recurrieron a un modelo informático sofisticado, diseñado en principio para decodificar y hacer predicciones sobre los lenguajes humanos, con el propósito de mejorar y agilizar el proceso de identificación de estructuras proteicas. Al aplicar este modelo de Inteligencia Artificial al lenguaje de las secuencias de proteínas, lograron resultados sorprendentes.

Un avance sin límites hacia el futuro

En el nuevo estudio, publicado recientemente en BioRxiv, el grupo de científicos liderado por Zeming Lin explicó que lograron una metodología de identificación de proteínas hasta 60 veces más rápida que la tecnología de cristalografía de rayos X, manteniendo al mismo tiempo la resolución y la precisión. 

Como los modelos de lenguaje aprenden patrones evolutivos a través de millones de secuencias, los investigadores entrenaron al modelo de IA empleado para que pueda reconocer una inmensa cantidad de parámetros y formas de proteínas de la misma manera que lo hacía con el lenguaje humano, desarrollando así el modelo de lenguaje de proteínas más amplio hasta la fecha. 

Además, los especialistas explicaron que a medida que se escalan los modelos de lenguaje, la IA “aprende” información que permite predecir la estructura tridimensional de una proteína con la resolución de átomos individuales. El avance, que podría marcar un antes y un después en los esfuerzos por descubrir estructuras de proteínas de organismos desconocidos para la ciencia, tiene un sinnúmero de aplicaciones, como la identificación de virus y bacterias, el estudio de formas de vida antiguas o el desarrollo de nuevos fármacos.

Referencia

Evolutionary-scale prediction of atomic level protein structure with a language model. Zeming Lin et al. BioRxiv (2022). DOI:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2