Científicos del Instituto Broad del MIT y Harvard y de la Facultad de Medicina de la Universidad de Massachusetts, en los Estados Unidos, desarrollaron un modelo de “machine learning” (o “aprendizaje automático”) que puede analizar millones de genomas de muestras del coronavirus y predecir qué variantes virales dominarán y causarán probablemente nuevas olas. El modelo fue llamado PyR0 y podría ayudar a los investigadores a identificar qué partes del genoma viral tienen menos probabilidades de mutar y, por tanto, son buenos objetivos para las vacunas que funcionarán contra las futuras variantes. Los resultados se publicaron en la revista Science.

Los investigadores entrenaron el modelo de aprendizaje automático utilizando 6 millones de genomas del coronavirus SARS-CoV-2 que estaban en la base de datos GISAID en enero de 2022. Demostraron que su herramienta también puede estimar el efecto de las mutaciones genéticas en la aptitud del virus, es decir, su capacidad para multiplicarse y propagarse en una población.

Cuando el equipo probó su modelo con los datos genómicos del virus de enero de 2022, predijo el aumento de la variante BA.2, que se convirtió en dominante en muchos países en marzo de 2022. Está ahora predominando también en los afectados por el COVID-19 en la Argentina. PyR0 también habría identificado la variante alfa (B.1.1.7) a finales de noviembre de 2020, un mes antes de que la Organización Mundial de la Salud la catalogara como variante preocupante.

El equipo de investigación incluye al primer autor, Fritz Obermeyer, becario en el Instituto Broad cuando se inició el estudio, y a los autores principales, Jacob Lemieux, instructor de medicina en la Facultad de Medicina de Harvard y en el Hospital General de Massachusetts, y Pardis Sabeti, miembro del instituto Broad, profesor del Centro de Biología de Sistemas y del Departamento de Biología Organísmica y Evolutiva de la Universidad de Harvard, y profesor del Departamento de Inmunología y Enfermedades Infecciosas de la Escuela de Salud Pública T. H. Chan de Harvard. Sabeti es también investigador del Instituto Médico Howard Hughes.

El modelo PyR0 se basa en un marco de aprendizaje automático llamado Pyro, desarrollado originalmente por un equipo de Uber AI Labs, la empresa que ofrece servicios de movilidad a través de una aplicación. En 2020, tres miembros de ese equipo, incluidos Obermeyer y Martin Jankowiak, segundo autor del estudio, se unieron al Instituto Broad y comenzaron a aplicar el marco a la biología.

“Este trabajo fue el resultado de la unión de biólogos y genetistas con ingenieros de software e informáticos”, dijo Lemieux. “Fuimos capaces de abordar algunas cuestiones realmente desafiantes en la salud pública que ningún enfoque disciplinario podría haber respondido por sí solo”, agregó.

“Este tipo de enfoque basado en el aprendizaje automático, que examina todos los datos y los combina en una sola predicción, es extremadamente valioso”, dijo Sabeti. “Nos da una ventaja a la hora de identificar lo que está surgiendo y podría ser una amenaza potencial”.

Los investigadores de todo el mundo han trabajado para predecir la aptitud de las diferentes variantes del coronavirus desde el principio de la pandemia. Pero los modelos anteriores no podían comparar todas las variantes simultáneamente, o tardaban días en procesar sólo unos pocos miles de genomas.

En cambio, PyR0 puede analizar millones de genomas -todos los datos del coronavirus disponibles públicamente- en aproximadamente una hora. Para eso, agrupa secuencias similares y define “grupos” de genomas por la constelación de mutaciones que comparten. Al centrarse en las mutaciones, que pueden aparecer en múltiples variantes, PyR0 tiene más poder estadístico que los modelos que se centran en las variantes virales.

Luego, el modelo determina qué mutaciones son cada vez más comunes y estima la rapidez con la que cada mutación puede provocar la propagación del virus. También estima la rapidez con la que aumentará el número de casos de las distintas variantes en función de su composición genética.

Al identificar qué mutaciones son importantes para la aptitud de determinadas variantes, el modelo también ofrece una visión biológica de cómo se propaga y desarrolla el COVID-19. Por ejemplo, conocer las mutaciones críticas puede ayudar a los científicos a predecir si las nuevas variantes serán más contagiosas o evadirán los anticuerpos neutralizantes, y también puede ayudarles a decidir qué mutaciones estudiar con más detalle.

“El genoma del coronavirus SARS-CoV-2 ha acumulado muchas mutaciones, por lo que resulta muy difícil analizar todas las combinaciones de mutaciones”, explica Jankowiak, investigador de aprendizaje automático en el Broad. “La ventaja de este tipo de análisis es que examina todo el genoma de forma holística y puede señalar mutaciones o variantes que reciben menos atención en el laboratorio”, expresó.

Los investigadores afirman que su estudio sugiere que el actual aumento de la aptitud viral se debe a la capacidad del virus para escapar de las respuestas inmunitarias. Sugirieron que los responsables de la salud pública, con la advertencia anticipada de la secuencia y las características de una variante, podrían aplicar medidas específicas para gestionar el recuento de casos. Y saber qué mutaciones contribuyen a la supervivencia de una variante -y por tanto no es probable que cambien- puede ayudar a los investigadores a elegir mejores objetivos para futuras vacunas.

Las nuevas versiones de este modelo o de otros similares podrían mejorar las predicciones teniendo en cuenta las interacciones entre las mutaciones. Los investigadores afirmaron que, con más trabajo, su modelo podría ayudar a controlar otros virus que tengan suficientes datos genéticos.

“La cantidad de datos que tenemos, junto con los métodos que hemos desarrollado, nos permiten obtener una visión en tiempo real de la evolución del virus en diferentes lugares del mundo de una manera que no era posible durante las epidemias anteriores”, dijo Obermeyer. “En 1917, la gente sólo sabía si tenía o no la gripe. Ahora, tenemos una visión muy precisa de miles de sublinajes diferentes del coronavirus. Eso es increíble”.