Caja de herramientas de aprendizaje maquinal para el análisis de proteínas

Caja de herramientas de aprendizaje maquinal para el análisis de proteínas

13 de Marzo de 2019 | Historia original de eLife

En la revista de acceso abierto eLife se describe una nueva "caja de herramientas" de aprendizaje maquinal que permite leer y analizar las secuencias de las proteínas.

El estudio demuestra que, cuando se la entrena para leer los datos de las secuencias, las redes neuronales artificiales llamadas Máquinas Restringidas de Boltzmann (RBM) pueden proporcionar abundante información sobre la estructura, la función y las características evolutivas de las proteínas. Se cree que este es el primer método que permite extraer per se este nivel de detalle de los datos de la secuencia.

Las proteínas están formadas por secuencias de moléculas llamadas aminoácidos, que determinan las propiedades estructurales y funcionales de una proteína dada. Sin embargo, entender qué partes de las secuencias son responsables de determinadas propiedades es un gran desafío. “Contestar esta pregunta podría tener implicancias significativas para el desarrollo de fármacos”, explica el coautor Jérôme Tubiana, exestudiante de doctorado en el laboratorio de física de l'École Normale Supérieure (ENS), París, Francia. “Por ejemplo, podría ayudar con el diseño de nuevas proteínas que tienen funciones deseables, o predecir la evolución futura de una secuencia de proteínas en organismos vivos, tales como patógenos, e identificar los objetivos apropiados de un fármaco.”

Para explorar esta pregunta, Tubiana y sus colaboradores aplicaron RBM a 20 "familias" de proteínas, un grupo de proteínas que comparten un origen evolutivo común. Los investigadores presentaron resultados detallados para cuatro familias de proteínas, que incluyen dos dominios cortos de las proteínas llamados Kunitz y WW, una proteína chaperona grande llamada Hsp70 y proteínas reticulares sintéticas para la evaluación comparativa.

Descubrieron que, después de aprender, las conexiones entre las neuronas artificiales del RBM pueden ser interpretadas y se relacionan con la estructura o la función (como actividad de la proteína), así como su filogenia – las relaciones evolutivas entre las secuencias de proteínas–. Adicionalmente, el equipo descubrió que mediante RBM podían diseñar nuevas secuencias de proteínas componiendo y girando hacia arriba o hacia abajo las diferentes unidades neuronales artificiales a voluntad.

“Nuestro modelo de RBM muestra cómo las técnicas de aprendizaje maquinal pueden resolver el reconocimiento de datos complejos y sacar conclusiones de los datos de una manera interpretable”, dice la coautora Simona Cocco, Directora de Investigación del CNRS en el laboratorio de física de la ENS. “Esto va en contra de los modelos de caja negra más complejos que se utilizan tradicionalmente en la ciencia de datos, ya que los análisis estadísticos proporcionados por estas herramientas son en gran medida ininterpretables. La interpretabilidad de nuestro método es un beneficio importante para los científicos –lleva la promesa de permitirles generar proteínas con las funciones deseables controladamente.”

“Ahora será interesante aplicar nuestro modelo a las proteínas de organismos patógenos”, agrega la autora Senior Rémi Monasson, también Directora de Investigación del CNRS en el laboratorio de física de la ENS, y directora adjunta del Instituto Henri Poincaré (CNRS/ Universidad de la Sorbona), Francia. “Los patógenos, en particular los virus, a menudo pueden escapar de las drogas mediante mutaciones que hacen que los tratamientos sean ineficaces. Nuestro método podría utilizarse para predecir las vías mutacionales de escape que son accesibles a la proteína funcional a partir de su secuencia actual y ayudar a identificar qué combinación de sitios de proteína deben ser atacados por los fármacos para bloquear todos los caminos.”

Nota: Este artículo ha sido republicado a partir del material proporcionado por eLife y editado para adecuar su longitud y contenido.

Referencia: Jérôme Tubiana, Simona Cocco and Rémi Monasson. 2019. Learning protein constitutive motifs from sequence data. eLife.
DOI: 10.7554/eLife.39397

Para obtener más información, póngase en contacto con la fuente citada.