banner
Hogar / Blog / Multi
Blog

Multi

Mar 11, 2024Mar 11, 2024

Scientific Reports volumen 12, número de artículo: 10487 (2022) Citar este artículo

1174 Accesos

3 citas

2 altmétrico

Detalles de métricas

Este artículo ha sido actualizado

Las interacciones proteína-proteína (PPI) son cruciales para el funcionamiento de las proteínas; sin embargo, predecir residuos en las interfaces PPI a partir de la secuencia de proteínas sigue siendo un problema desafiante. Además, las anotaciones funcionales basadas en estructuras, como las anotaciones de interfaz PPI, son escasas: solo están disponibles para aproximadamente un tercio de todas las anotaciones de interfaz PPI basadas en residuos de estructuras proteicas. Si queremos utilizar una estrategia de aprendizaje profundo, tenemos que superar el problema de la disponibilidad limitada de datos. Aquí utilizamos una estrategia de aprendizaje multitarea que puede manejar los datos faltantes. Comenzamos con la arquitectura del modelo multitarea y la adaptamos para manejar cuidadosamente los datos faltantes en la función de costos. Como tareas de aprendizaje relacionadas incluimos predicción de estructura secundaria, accesibilidad a solventes y residuos enterrados. Nuestros resultados muestran que la estrategia de aprendizaje multitarea supera significativamente los enfoques de tarea única. Además, solo la estrategia multitarea puede aprender de manera efectiva sobre un conjunto de datos ampliado con datos de características estructurales, sin anotaciones PPI adicionales. La configuración de tareas múltiples se vuelve aún más importante si la fracción de anotaciones de PPI se vuelve muy pequeña: el alumno de tareas múltiples entrenado en solo una octava parte de las anotaciones de PPI (con extensión de datos) alcanza el mismo rendimiento que el alumno de una sola tarea. en todas las anotaciones del PPI. Por lo tanto, mostramos que la estrategia de aprendizaje multitarea puede ser beneficiosa para un pequeño conjunto de datos de entrenamiento donde las propiedades funcionales de interés de la proteína están solo parcialmente anotadas.

Las bases de datos de secuencias de proteínas1 continúan creciendo rápidamente y la información estructural está cada vez más disponible2. Sin embargo, las anotaciones funcionales precisas basadas en la estructura de la proteína, como los sitios de unión a proteínas, aún son escasas y difíciles de predecir. Por lo tanto, se utilizan técnicas computacionales para predecir varias propiedades estructurales funcionales de las proteínas basándose en la secuencia de la proteína. Una de estas propiedades es la interfaz de interacción física entre proteínas que son cruciales para el funcionamiento de una proteína4. La interacción entre proteínas es necesaria en muchos procesos biológicos, como la replicación del ADN, la transcripción del ARN, la transducción de señales, el control de los procesos celulares, el transporte de proteínas y el metabolismo5,6,7,8,9. Además, muchas enfermedades pueden estar relacionadas con la deformación de la interfaz de una proteína10,11. Predecir el conjunto de residuos de una proteína que interactúan con otras proteínas es una tarea importante, pero aún desafiante12. Además, la información estructural sobre los residuos que forman la interfaz es escasa. El tamaño de la base de datos anotada por PPI es sólo una pequeña fracción del tamaño de la base de datos anotada estructural. El tamaño de la base de datos estructural anotada, a su vez, es una pequeña fracción del tamaño de la base de datos de secuencias de proteínas (ver Fig. 1). Además, existen problemas como la predicción de las interfaces de epítopos (unión de anticuerpos), para la cual se dispone de aún menos datos etiquetados13. Para entrenar de manera eficiente redes neuronales profundas para la predicción de la interfaz PPI y otras tareas con poca disponibilidad de anotaciones, tenemos que superar el problema del tamaño limitado del conjunto de datos de entrenamiento.

Comparación del número de entradas disponibles en bases de datos sobre secuencia de proteínas, estructura de proteínas y anotaciones funcionales basadas en estructuras específicas: interfaz de interacción proteína-proteína (PPI). Estos resultados se basan respectivamente en las entradas de proteínas disponibles en la base de datos UniProtKB/TrEMBL, las entradas de proteínas disponibles en el Banco de datos de proteínas (PDB) y las entradas de proteínas con anotaciones de interfaz PPI. Tenga en cuenta que el eje y es logarítmico.

Debido a los éxitos del aprendizaje profundo en campos como el procesamiento del lenguaje natural, los enfoques de aprendizaje profundo se utilizan cada vez más y han mostrado grandes éxitos para la predicción de características estructurales de proteínas14,15,16,17. En el aprendizaje profundo, múltiples capas conectadas, junto con sus parámetros, predicen la salida de las características de entrada correspondientes18. Enfoques y modelos como redes neuronales convolucionales (CNN), redes neuronales residuales (ResNet), redes neuronales recurrentes (RNN), redes de memoria a largo plazo (LSTM), transformadores y aprendices multitarea aparecen en métodos recientes de predicción de estructuras15,16 ,19,20,21,22. Hanson et al.16 utilizaron, entre otros, ResNets ultraprofundos en el modelo SPOT-1D que fueron capaces de capturar interacciones no locales entre residuos que solo están cerca en la estructura de la proteína y no en la secuencia de la proteína16. Heffernan et al.21 utilizaron RNN bidireccionales de LSTM y demostraron que este método es útil para capturar interacciones de largo alcance, especialmente para residuos con una gran cantidad de contactos de largo alcance. Recientemente comparamos el uso de diferentes arquitecturas de redes neuronales para la predicción de interfaces de proteínas23. Además, los transformadores se han utilizado con éxito en el lenguaje de las proteínas24,25. En los transformadores, la información aprendida de datos de dominio general, como secuencias de proteínas, se transfiere a datos de dominio específicos, como la predicción de estructuras secundarias. Otra estrategia en la que se transfiere información es el aprendizaje multitarea.

A diferencia del aprendizaje con una sola tarea, en el que el objetivo es mejorar el desempeño de una tarea de predicción específica, en el aprendizaje multitarea26 el objetivo es mejorar el desempeño de múltiples tareas de aprendizaje simultáneamente. Entrenar el modelo multitarea en diferentes tareas al mismo tiempo permite que el modelo aprenda una representación compartida, proporcionando una manera de transferir información aprendida entre tareas específicas14,26. El aprendizaje multitarea está relacionado con el aprendizaje por transferencia inductiva27. La principal diferencia es que el objetivo del aprendizaje por transferencia inductiva es lograr únicamente un alto rendimiento en la tarea principal, mientras que el objetivo del aprendizaje multitarea es aprender tanto la tarea principal como las relacionadas27. La estrategia de aprendizaje multitarea se puede implementar en la arquitectura de aprendizaje de un extremo a otro de los modelos de aprendizaje profundo. Para aprender el modelo a hacer predicciones precisas para todas las tareas, la pérdida de las distintas tareas debe representarse en la función de pérdida utilizada durante el entrenamiento del modelo multitarea14. Esta estrategia se ha aplicado previamente al dominio de las proteínas, por ejemplo, prediciendo simultáneamente múltiples propiedades estructurales de las proteínas15. El beneficio de utilizar información sobre anotaciones estructurales, como características de entrada utilizando modelos de predicción previamente entrenados, ya se ha demostrado para varios estudiantes de una sola tarea7,28,29. Una ventaja de la estrategia multitarea es no tener que generar características de entrada a priori al aplicar el modelo a una nueva entrada. Aquí estamos interesados ​​tanto en la capacidad de aprendizaje de la transferencia inductiva de la configuración multitarea para mejorar el rendimiento de la predicción de la interfaz PPI, como en las predicciones reales de las tareas relacionadas, como la accesibilidad a la superficie, ya que estas pueden proporcionar, por ejemplo, conocimiento de la naturaleza del sitio de unión. Aquí investigamos si una estrategia de aprendizaje multitarea puede ser adecuada para entrenar modelos de predicción de interfaz PPI.

Para considerar qué trabajo relacionado se ha realizado, debemos cubrir dos tipos de problemas: (1) predicción de propiedades estructurales de proteínas en un entorno de tareas múltiples y (2) predicción de la interfaz de proteínas. Los métodos de predicción de propiedades estructurales de proteínas suelen utilizar una estrategia de aprendizaje multitarea. Tenga en cuenta que las etiquetas para muchas propiedades estructurales, como la estructura secundaria y la accesibilidad a los disolventes, sólo se pueden generar si la estructura tridimensional de una proteína está disponible. Klausen et al.15 construyeron el método basado en secuencias NetSurfP-2.0 para predecir la accesibilidad de los solventes, la estructura secundaria, el desorden estructural y los ángulos diédricos de la columna vertebral, utilizando una combinación de CNN y LSTM. El modelo de aprendizaje profundo SPOT-1D se basa en un conjunto de ResNets y CNN para predecir la estructura secundaria, los ángulos de la columna vertebral, la accesibilidad a los disolventes y el número de contacto16. La predicción de la estructura secundaria realizada por SPOT-1D dio como resultado rendimientos superiores a los alcanzados por NetSurfP-2.016. En 2020, Xu et al.17 publicaron su método OPUS-TASS. Este alumno multitarea, basado en una combinación de CNN, transformadores y LSTM, pudo mejorar aún más las predicciones de la estructura secundaria y los ángulos de la columna vertebral17. Xu et al.17 entrenaron múltiples modelos, incluido un conjunto diferente de tareas de aprendizaje: estructura secundaria en tres y ocho clases, ángulos de torsión de la columna vertebral, accesibilidad absoluta al solvente, ángulos diédricos de la cadena lateral y el descriptor de estructura de la columna vertebral local CSF317. Hasta donde sabemos, la estrategia de aprendizaje multitarea no se ha utilizado para la predicción de la interfaz PPI.

Los modelos de predicción del IPP fueron descritos recientemente en el artículo de revisión de Savojardo et al.12. En este artículo, los diferentes modelos se distinguieron en métodos que utilizan la secuencia primaria de proteínas como entrada y métodos que utilizan la estructura tridimensional de la proteína como entrada para el modelo de predicción. Además, los métodos pueden ser independientes o dependientes del socio12. En este estudio, predecimos los residuos de la interfaz PPI en función de la secuencia primaria de forma no específica para la pareja. Los otros modelos no específicos de pareja basados ​​en secuencias más recientes son SSWRF30, SeRenDIP7,31, SCRIBER9 y PIPENN23. El método SSWRF utiliza una máquina de vectores de soporte de conjunto y un bosque aleatorio con muestra ponderada para predecir la interfaz PPI30. SeRenDIP es un modelo de bosque aleatorio entrenado en conjuntos de datos que contienen solo interacciones homoméricas, solo heteroméricas o ambos tipos de interacciones7. SCRIBER es un modelo basado en regresión logística multinivel y entrenado en un conjunto de datos que contiene múltiples tipos de interacciones de proteínas.

La mayoría de los métodos de predicción de interfaz utilizan las siguientes características como entrada: conservación de secuencia (ver más abajo)8,9,28,29, accesibilidad de superficie8,9,30,32,33,34, flexibilidad de la red troncal35,36 o una combinación de estas7,31 como características de entrada. Estudios anteriores demostraron que es más probable que los residuos con alto contenido de disolventes sean residuos de interfaz32,33,34. Los datos del tren y las pruebas para anotar proteínas con interfaces de unión verdaderas se pueden recuperar del PDB. Sin embargo, esto no es del todo trivial ya que es necesario definir la interfaz de las moléculas de unión. Normalmente, se utiliza algún umbral para seleccionar aminoácidos muy próximos9,23. Se encuentran disponibles algunos conjuntos de datos publicados más grandes, en particular 'ZK448', un conjunto de pruebas de 448 proteínas realizado por Zhang y Kurgan9, 'BioDL' que contiene un total de 4620 proteínas con anotaciones PPI de Stringer et al.23, y 'Homomeric & Heteromeric' con 546 proteínas. por Hou et al.7,31, cada uno de los cuales viene con su conjunto de características precalculadas. Sin embargo, no todos los conjuntos de datos incluyen todas las funciones y la generación de funciones faltantes puede ser una tarea que requiere mucho tiempo. Los rendimientos de última generación para la predicción de la interfaz PPI no específica del socio oscilan entre 0,68 y 0,78 AUC ROC, según el conjunto de datos exacto y el modelo utilizado23. Algunos tipos de PPI son más difíciles de predecir que otros: las interfaces heteroméricas tienden a ser más difíciles que las homoméricas7. El rendimiento también suele diferir entre conjuntos de datos y, de los mencionados anteriormente, ZK448 muestra métricas de rendimiento más bajas en general23. Nos referimos a Stringer et al.23, Zhang y Kurgan9 y Hou et al.31 para revisiones recientes y evaluaciones comparativas de estos métodos, y volveremos a los desempeños comparativos en la “Discusión”.

Los perfiles de conservación de secuencias de proteínas proporcionan una señal muy fuerte para muchas tareas de predicción funcional y estructural, ya que codifican qué residuos fueron restringidos durante la evolución y, por lo tanto, es probable que tengan un papel funcional o estructural importante. Tenga en cuenta que la mayor precisión para las tareas de predicción estructural de proteínas solo se puede obtener si se utiliza la conservación como característica de entrada37. De hecho, incluso los modelos de predicción de estructuras más modernos tienen que utilizar dichos perfiles como características de entrada2, y no pueden definir completamente una descripción del problema de un extremo a otro, desde una secuencia hasta una estructura, sin calcular explícitamente los perfiles de conservación. Estos patrones de conservación generalmente se codifican como perfiles de Matriz de puntuación específica de posición (PSSM) o Modelo oculto de Markov (HMM), que proporcionan características adicionales para cada residuo. Los métodos de predicción de interfaz PPI existentes también utilizan la conservación como entrada7,8,9,30,38,39,40.

En este trabajo, tomamos propiedades derivadas de secuencia y conservación de secuencia como características de entrada, similar a OPUS-TASS17, pero no utilizamos propiedades estructurales predichas como la estructura secundaria o la accesibilidad de la superficie como características de entrada, como es común en muchas predicciones de interfaz PPI. métodos. En cambio, estas propiedades estructurales se utilizan como tareas de aprendizaje relacionadas en nuestra configuración de tareas múltiples, como se muestra esquemáticamente en la Fig. 2.

Visualización de las posibles tareas de predicción estructural de proteínas y la implementación de la configuración multitarea en la función de costos del modelo. La proteína en el ejemplo es Pterin-4-alfa-carbinolamina deshidratasa 2, basada en la estructura PDB 4wil cadena A. (a) Los residuos de la interfaz de interacción proteína-proteína están coloreados en rojo para la cadena de proteína A, los otros residuos de la cadena A están representados en azul. Estos residuos interactúan con la cadena proteica de color oliva. (b) Los residuos enterrados se indican en verde. (c) La accesibilidad absoluta al disolvente se muestra en colores azules. Cuanto más oscuro sea el color de los residuos, mayor será la accesibilidad al disolvente. d) Clasificación de los componentes de la estructura secundaria en tres clases. (e) La bobina es de color verde, la hélice \(\alpha\) de color amarillo y la cadena \(\beta\) de color rojo. Clasificación de los componentes de la estructura secundaria en ocho clases. La bobina es de color verde, azul de alta curvatura, \(\beta\)-vuelta verde oscuro, \(\alpha\)-hélice amarillo, \(\beta\)-hilo rojo y \(\beta\)-puente oscuro rojo. Tenga en cuenta que esta proteína no tiene una hélice 3\(_{10}\) ni una hélice \(\pi\). La pérdida de las (posibles) tareas de predicción individuales se suma en la función de costo que se utiliza durante el entrenamiento del modelo multitarea.

Aquí, investigamos si la predicción de la interfaz PPI (cuando el tamaño del conjunto de datos de entrenamiento es el factor limitante para el rendimiento) se puede mejorar definiendo la tarea como un problema de aprendizaje multitarea. Mostramos el desempeño del modelo para diferentes combinaciones de las tareas de aprendizaje relacionadas: estructura secundaria en tres y ocho clases, accesibilidad absoluta a solventes y residuos enterrados. Al utilizar estas tareas, se alcanzan rendimientos de predicción más altos en comparación con el modelo de predicción de interfaz de tarea única. Además, la configuración multitarea ofrece la posibilidad de entrenar en un conjunto de datos parcialmente anotado y continuar aprendiendo exclusivamente en las tareas relacionadas. El conjunto de datos utilizado en este estudio está solo parcialmente anotado con etiquetas de interfaz PPI. El beneficio de la configuración de tareas múltiples, como solución a los datos faltantes, se estudia aquí con más profundidad enmascarando las etiquetas de la interfaz PPI para una parte de las proteínas en nuestro conjunto de datos. Mostramos que formular una tarea de predicción como un problema de aprendizaje multitarea puede ser beneficioso para tareas de predicción estructural de proteínas para las cuales solo está disponible un pequeño conjunto de datos de entrenamiento anotados.

El modelo OPUS-TASS descrito por Xu et al.17 se utiliza como base para los modelos de predicción utilizados en este estudio. También utilizamos su conjunto de datos anotados publicados y sus procedimientos de capacitación y validación.

El conjunto combinado de capacitación y validación de OPUS-TASS consta de 11,007 proteínas e incluye las siguientes características de entrada generadas: perfiles HMM, perfiles PSSM, características fisicoquímicas y la característica PSP19. Tenga en cuenta que generar perfiles HMM y PSSM es costoso desde el punto de vista computacional. Las proteínas de este conjunto de datos fueron seleccionadas por Hanson et al.41 y también se utilizaron para entrenar y validar SPOT-1D16. Las proteínas se seleccionaron del servidor PISCES42 en febrero de 2017. Solo se seleccionaron estructuras obtenidas mediante cristalografía de rayos X con una resolución superior a 2,5 Å. Se eliminaron las secuencias que excedían una longitud de secuencia de 700 residuos y el conjunto de datos se filtró por identidad de secuencia, aplicando un límite del 25%. Las anotaciones basadas en residuos para interfaces PPI están disponibles para un tercio de este conjunto de datos (3551 proteínas). Estos datos anotados de la interfaz PPI son una selección de estructuras PDB43 como lo describen Stringer et al.23. En resumen, el procedimiento fue el siguiente. Se seleccionaron proteínas que constan de 2 a 200 cadenas. Para un complejo estructural se determinó la distancia interatómica entre todos los aminoácidos en cadenas separadas. Los aminoácidos se definieron como residuos de unión cuando la distancia interatómica cae por debajo de un cierto umbral. Este umbral se fijó en 0,5 Å más los radios de van der Waals de los dos átomos.

Se construyeron dos conjuntos de datos para ver si podíamos entrenar el modelo multitarea de manera efectiva utilizando datos limitados: (1) el 'conjunto de datos PPI' contiene todas las proteínas en el conjunto de datos OPUS-TASS para las cuales las anotaciones PPI estaban disponibles; (2) el 'conjunto de datos PPI_extendedSFD' extendido contiene el conjunto de datos PPI extendido con datos de características estructurales almacenados en todas las demás proteínas del conjunto de datos OPUS-TASS (consulte la Figura 1 complementaria). Por lo tanto, el conjunto de datos PPI_extendedSFD es más grande, pero solo está parcialmente anotado con información de la interfaz PPI. Ambos conjuntos de datos se dividieron en un conjunto de entrenamiento (80%), validación (10%) y prueba (10%). Para todos estos conjuntos, el conjunto de datos PPI es un subconjunto estricto del conjunto de datos PPI_extendedSFD y, por lo tanto, contiene la misma información de interfaz PPI. La división de los datos en conjuntos de entrenamiento, validación y prueba se realizó después de hacer coincidir las proteínas del conjunto de datos OPUS-TASS con anotaciones PPI basadas en la ID de PDB y la cadena de proteínas. Las anotaciones de PPI para 64 proteínas tuvieron que eliminarse porque las secuencias de proteínas entre las dos bases de datos no correspondían.

Las características de entrada basadas en secuencia constan de 20 características obtenidas de la Matriz de puntuación de posición específica (PSSM), 30 características obtenidas de los perfiles del Modelo oculto de Markov (HMM), siete características obtenidas de las propiedades fisicoquímicas y 19 características obtenidas de la clasificación PSP19. Por lo tanto, cada proteína está representada por una matriz con las siguientes dimensiones: el número de residuos de proteínas multiplicado por las 76 características de entrada (\(20+30+7+19\)). Los perfiles PSSM, construidos por Xu et al.17, se basan en tres iteraciones de PSI-BLAST (v2.10.0+)44 utilizando la base de datos UniRef9045. Los perfiles HMM se construyen utilizando HHBlits (v3.1.0)46 y la base de datos Uniclust3047. Los HMM capturan información específica de la posición sobre inserciones y eliminaciones, además de la conservación, para cada aminoácido. En el PSSM37 sólo se captura la conservación por aminoácido. HHBlits es un algoritmo de búsqueda de secuencia rápida que utiliza la alineación HMM-HMM después de aplicar una alineación perfil-perfil como prefiltro48. Las siete propiedades fisicoquímicas son las propiedades de los aminoácidos descritas por Meiler et al.49. La característica PSP19 captura la flexibilidad de la cadena lateral y la orientación del empaque50. Para esta característica, Lu et al.50 construyeron 19 bloques de cuerpo rígido en una secuencia codificada en caliente que indica la existencia de un bloque en un residuo proteico. Tanto las propiedades fisicoquímicas como la característica de PSP19 son independientes de las proteínas y específicas de los aminoácidos.

Durante el preprocesamiento, se generaron las etiquetas de las tareas de predicción. Para nuestros modelos, consideramos tres etiquetas de salida generadas por Xu et al.17: estructura secundaria en tres y ocho clases (S3 y S8) y la accesibilidad de los residuos a los solventes (SA). Los componentes de la estructura secundaria de tres clases son bobina, \(\alpha\)-hélice y \(\beta\)-hebra. Estos tres componentes se pueden distinguir en ocho clases: bobina en bobina, alta curvatura y \(\beta\)-vuelta; \(\alpha\)-hélice en \(\alpha\)-hélice, 310-hélice y \(\pi\)-hélice; y \(\beta\)-strand en \(\beta\)-strand y \(\beta\)-bridge51. Las etiquetas S3, S8 y SA se derivan de DSSP51. Además, agregamos dos tareas de clasificación: identificación de residuos enterrados (BU) y de interfaz PPI (IF). Los residuos se etiquetaron como enterrados si la fracción de accesibilidad absoluta al solvente sobre su accesibilidad máxima al solvente es inferior al 7% (Algoritmo complementario 1)52. Los residuos con cadenas laterales incompletas quedaron enmascarados para la predicción de SA. Para las etiquetas PPI, todos los residuos de una proteína se enmascararon cuando no había ninguna anotación de interfaz PPI disponible para toda la proteína. Los residuos enmascarados no se tuvieron en cuenta en el cálculo de pérdidas ni en las medidas de rendimiento. Las tareas de predicción S3, S8, SA y BU están relacionadas con la interfaz PPI y, por lo tanto, se utilizan en este estudio como posibles tareas de aprendizaje adicionales para el predictor IF multitarea.

Xu et al.17 describen los detalles de la arquitectura del modelo de aprendizaje profundo en sus “Métodos” y en la Fig. 1. El modelo se implementa en Python utilizando la biblioteca keras de tensorflow53. De manera similar a su modelo, realizamos una mejora de datos y utilizamos la arquitectura de 2 capas de transformador, 5 capas de CNN y 4 capas de LSTM bidireccionales (consulte la figura complementaria 2). Usamos su abandono de 0,25 y la función de activación de unidad lineal rectificada (ReLU). A diferencia del modelo OPUS-TASS, las posibles etiquetas de salida en nuestros modelos son: residuos de interfaz (IF), estructura secundaria basada en 3 clases (S3) y en 8 clases (S8), accesibilidad absoluta a disolventes (SA) y residuos enterrados. (BU). Los modelos estudiados se denominan en base a las abreviaturas de las tareas de predicción que se consideran en el modelo. No creamos un conjunto de estos diferentes modelos. Además, agregamos la posibilidad de enmascarar parte de los datos de la interfaz PPI (ver Algoritmo complementario 2), para estudiar el efecto de los datos parcialmente anotados.

La configuración de aprendizaje multitarea se implementa en la función de costo del modelo. Para cada tarea de predicción, la pérdida individual está determinada por la entropía cruzada para las tareas de clasificación (S3, S8, BU, IF) y el error cuadrático medio para la tarea de regresión (SA). Las pérdidas individuales se suman y forman la función de costo total, como se muestra en la Fig. 2, y se define como:

donde \(L_{IF}\) es la pérdida de entropía cruzada para las predicciones de la interfaz, \(L_{S3}\) es la pérdida de entropía cruzada para las predicciones de la estructura secundaria S3, \(L_{S8}\) es la La pérdida de entropía cruzada para las predicciones de la estructura secundaria S8, \(L_{SA}\) es la pérdida de error cuadrático medio para las predicciones de accesibilidad de la superficie.

De esta forma, el modelo puede aprender una representación compartida para todas las tareas de predicción. Para la mayoría de las proteínas en el conjunto de datos PPI_extendedSFD no hay información de la interfaz PPI disponible. Para estas proteínas, la pérdida se construye únicamente por las pérdidas individuales de las tareas relacionadas. Investigamos el efecto de los pesos relativos de cada tarea en la función de costos, utilizando tres enfoques. Método A: las ponderaciones de las pérdidas de las tareas de aprendizaje individuales en la función de costo total se igualaron, es decir, \(\alpha = \beta = \gamma = \delta = \varepsilon\). Método B: se agruparon tareas de predicción similares (S3, S8 y BU, SA). Los pesos de los pares de tareas de predicción similares se redujeron a la mitad, es decir, \(\alpha = (\beta + \gamma ) = (\delta + \varepsilon\)) y \(\beta = \gamma\), \(\delta = \varepsilon\) si ambas tareas de predicción asociadas con los parámetros sumados estaban presentes. Método C: se asignó un peso a la pérdida de interfaz de modo que su fracción sea el 50% de la función de costo total, es decir, a la tarea PPI se le dio más peso en este enfoque. Es decir, para la Ec. (1) tenemos \(\alpha = \beta + \gamma + \delta + \varepsilon\) y \(\beta = \gamma = \delta = \varepsilon\).

De acuerdo con Xu et al.17, el tamaño del lote se estableció en 4 proteínas, los pesos iniciales se establecieron mediante el inicializador uniforme glorot y se utiliza el optimizador Adam durante el entrenamiento54. La tasa de aprendizaje se divide por dos cuando el rendimiento de la validación disminuye, según lo medido por el área bajo la curva de características del operador del receptor (AUC ROC) de la predicción de la interfaz PPI.

Evaluamos los criterios de parada temprana para evitar el sobreajuste según lo definido para el modelo OPUS-TASS17 entrenando varios modelos durante 50 épocas. Xu et al. definió los criterios de parada para converger cuando por cuarta vez la puntuación AUC ROC en el conjunto de validación es inferior a la puntuación anterior. Entrenar más los modelos después de alcanzar estos criterios de parada no mostró mejoras en el rendimiento del modelo. Por lo tanto, decidimos utilizar los mismos criterios de parada.

El alumno de tarea única, llamado modelo IF, solo está capacitado en la tarea de predicción de la interfaz PPI. Este modelo no pudo identificar residuos de interfaz cuando se utilizó una tasa de aprendizaje inicial de 1e-3, la tasa de aprendizaje inicial utilizada para entrenar el modelo OPUS-TASS. Después del ajuste de hiperparámetros, la tasa de aprendizaje inicial se estableció en 2,5e−4. Además, se aplicó una ponderación a los residuos de la interfaz real en el cálculo de pérdidas para ajustar el desequilibrio de clase de la predicción de la interfaz PPI. Este peso se estableció en función de la proporción de residuos que no son de interfaz respecto de los residuos de interfaz en el conjunto de entrenamiento y validación. Por tanto, este peso se fijó en 6,37.

El entrenamiento y la evaluación del modelo se realizan en un nodo que contiene una GPU Titan X. Los modelos convergen después de aproximadamente 10 épocas. En el conjunto de datos PPI_extendedSFD, la duración de una época es de aproximadamente una hora. El rendimiento de validación del modelo en todas las tareas de predicción junto con el rendimiento del entrenamiento se recopiló con TensorBoard53.

Para medir el rendimiento de los modelos de predicción, los conjuntos de datos se dividieron en un conjunto de entrenamiento (80%), validación (10%) y prueba (10%) (consulte la figura complementaria 1). Utilizamos el conjunto de validación para estudiar diferentes modelos de aprendizaje multitarea, seleccionar modelos y estudiar conjuntos de datos parcialmente anotados. El equipo de prueba sólo se utiliza para confirmar el rendimiento de los mejores modelos.

Comparamos el rendimiento del modelo IF de tarea única con diferentes modelos de tareas múltiples. Los modelos multitarea contienen diferentes combinaciones de tareas de aprendizaje relacionadas como tareas de predicción junto a la predicción de la interfaz. Una vez que los modelos han visto todas las secuencias de entrenamiento en una época, se evalúan los modelos. Continuamos con el entrenamiento hasta que se alcance el criterio de parada temprana, que se basa únicamente en el rendimiento de predicción de la interfaz PPI. A partir de entonces, el modelo genera la puntuación AUC ROC más alta alcanzada para la predicción de la interfaz PPI, así como las puntuaciones correspondientes de las tareas relacionadas, en el conjunto de validación.

Utilizamos diferentes medidas de rendimiento para las diferentes tareas de predicción. El desempeño de la tarea principal en la que nos centramos en este artículo (la predicción de la interfaz PPI) está determinado por el AUC ROC. La curva ROC presenta la relación entre sensibilidad y especificidad en diferentes umbrales de clasificación. El área bajo esta curva resume la curva y representa la probabilidad de que el modelo arroje un valor más alto para un residuo que está en la interfaz que para un residuo que no está en la interfaz55. Para permitir una comparación futura con los (novedosos) métodos de predicción de la interfaz PPI, la exactitud, la precisión, la recuperación, la especificidad, el coeficiente de correlación de Matthews (MCC) y la puntuación F1 se evalúan en la Tabla complementaria 1. La predicción de la estructura secundaria en 3 clases y 8 clases, y el rendimiento de la predicción enterrada se mide por la precisión (ACC). La precisión presenta la probabilidad de predecir correctamente la etiqueta de clase. En comparación con el AUC ROC, el umbral de clasificación se fija en 0,556.

El rendimiento absoluto de la accesibilidad al disolvente se mide mediante el coeficiente de correlación de Pearson (PCC), que es una medida normalizada de la covarianza en el rango entre − 1 y 157.

Todos los modelos se entrenan cuatro veces, después de lo cual se determina el rendimiento medio y la desviación estándar en el conjunto de validación. Los diferentes modelos se comparan en función de las puntuaciones del PPI AUC ROC. Se realiza una prueba unilateral de significancia sobre la diferencia de las dos puntuaciones AUC ROC independientes58, disponible en http://vassarstats.net/roc_comp.html.

Realizamos un análisis de errores en las proteínas individuales en el conjunto de prueba, para investigar la relación entre las interfaces pequeñas y las puntuaciones de rendimiento de IF. Además, probamos la relación entre las puntuaciones bajas de predicción de IF y las puntuaciones de predicción de otras tareas de características estructurales, realizando una regresión lineal utilizando el módulo scipy.stats (versión: 1.3.1, ver https://docs.scipy.org/doc /scipy/reference/stats.html).

Para probar si la predicción de la interfaz PPI podría mejorarse cuando se formula como un problema de tareas múltiples, generamos dos conjuntos de datos con anotaciones estructurales y PPI: (1) un conjunto de datos PPI que contiene anotaciones estructurales y PPI para todas las proteínas y (2) un conjunto de datos PPI_extendedSFD que contiene anotaciones estructurales para todas las proteínas y anotaciones PPI para solo un tercio de los datos. Por lo tanto, el conjunto de datos PPI (3551 proteínas) es un subconjunto del conjunto de datos PPI_extendedSFD. El conjunto de datos PPI_extendedSFD (11.007 proteínas) se ve ampliado por las estructuras de proteínas restantes en el conjunto de datos OPUS-TASS para las cuales hay información estructural disponible, pero no anotaciones de PPI (consulte también la Tabla 1).

Ajustamos la configuración del modelo multitarea de Xu et al.17 para permitir el enmascaramiento de etiquetas sin anotaciones durante el proceso de capacitación y agregamos una medida de rendimiento para la tarea de predicción de accesibilidad absoluta al solvente. Además, el modelo se amplió para identificar residuos enterrados y de interfaz PPI. Estas tareas se implementaron de la misma manera que las tareas de clasificación de estructuras secundarias existentes.

La tasa de aprendizaje inicial se ajustó en el conjunto de datos de PPI entrenando el modelo IF en el conjunto de entrenamiento y validando el modelo en el conjunto de validación. Ajustamos este parámetro considerando los valores 1e-3, 5e-4, 2.5e-4, 1e-4, 7.5e-4, 5e-5 y 1e-5. El rendimiento del modelo se midió mediante AUC ROC, área bajo la curva de recuperación de precisión (AUC PR) y precisión. Se alcanza un óptimo estable entrenando el modelo con una tasa de aprendizaje de 2,5e−4 (consulte la figura complementaria 3). Evaluamos el desempeño del modelo en estas tasas de aprendizaje, para las tareas relacionadas, entrenando el modelo multitarea de mejor rendimiento presentado por Xu et al.17. Los resultados muestran, de acuerdo con la puntuación de rendimiento de la interfaz PPI, un óptimo estable para una tasa de aprendizaje de 2,5e−4 (consulte la figura complementaria 4).

Utilizamos las tareas de predicción S3, S8, SA y BU como posibles tareas de aprendizaje relacionadas con la tarea de predicción de la interfaz PPI. Se entrenaron varios modelos en diferentes combinaciones de estas tareas. Cada modelo se entrenó cuatro veces en el conjunto de datos PPI y PPI_extendedSFD por separado, después de lo cual se determinaron las puntuaciones medias de AUC ROC y AUC PR y su desviación estándar. Los resultados de los conjuntos de validación se muestran en la Tabla 2. Los resultados de las otras medidas de desempeño consideradas se muestran en la Tabla complementaria 1. La estrategia de aprendizaje multitarea supera significativamente (P <1e−3 para todos los modelos) al alumno de una sola tarea ( AUC ROC: 73,17 ± 0,36) tanto en el conjunto de datos PPI como en PPI_extendedSFD. El modelo 'IFBUS3SA', entrenado en el conjunto de datos PPI_extendedSFD utilizando interfaz (IF), estructura secundaria en tres clases (S3), enterrada (BU) y accesibilidad a solventes (SA), como tareas de predicción, alcanza el AUC ROC más alto (76,32 ± 0,23). Este modelo multitarea supera significativamente al modelo de tarea única (P <1e-6) y al modelo IFBU en el conjunto de datos PPI (P <1e-3). Además, supera significativamente al modelo IFBU en el conjunto de datos PPI_extendedSFD y al modelo IFBUSA en el conjunto de datos PPI (P <0,01). Incluir la tarea de clasificación de estructuras secundarias más específica S8 en lugar de S3, o tanto S3 como S8, no mostró mejoras adicionales.

Los rendimientos de predicción de la interfaz PPI expresados ​​en puntuaciones AUC PR (consulte la Tabla 2) siguen tendencias similares a las puntuaciones AUC ROC. Un análisis más detallado mostró que los estudiantes de una sola tarea de las tareas relacionadas optimizadas para esa tarea específica alcanzan rendimientos de predicción similares a los de los estudiantes de múltiples tareas optimizados para la predicción de la interfaz PPI (consulte la Figura complementaria 5). Las puntuaciones AUC ROC de predicción de la interfaz PPI obtenidas por modelos adicionales entrenados en más combinaciones de tareas relacionadas se pueden encontrar en la Figura complementaria 6.

Intentamos mejorar las predicciones de la interfaz PPI incluyendo la predicción del ángulo de torsión como tarea de aprendizaje adicional relacionada. Incluimos la predicción del ángulo phi y del ángulo psi en todos los modelos descritos en la Tabla 2. El rendimiento se midió mediante el error absoluto medio. Sin embargo, después de agregar estas tareas, no se mostró ninguna mejora significativa en comparación con el modelo mejor presentado (IFBUS3SA), consulte también la Tabla complementaria 2).

Probamos nuestros modelos en el equipo de prueba independiente. Los resultados se muestran en la Fig. 3 e ilustran el rendimiento similar de la predicción de la interfaz PPI expresada en puntuaciones AUC ROC. La Tabla complementaria 3) muestra medidas de rendimiento adicionales para los conjuntos de prueba y validación. Estos resultados respaldan aún más la conclusión de que los alumnos que realizan múltiples tareas superan a los que realizan una sola tarea.

Comparación del modelo de tarea única y los modelos de tarea múltiple basados ​​en las puntuaciones AUC ROC de la predicción de la interfaz PPI en la validación y un conjunto de pruebas independiente. Se muestran los rendimientos para el conjunto de validación (azul oscuro) y prueba (azul) para modelos entrenados en el conjunto de datos PPI, y el conjunto de validación (rojo oscuro) y prueba (rojo) para modelos entrenados en el conjunto de datos PPI_extendedSFD. Todos los modelos se entrenan una vez en el conjunto de entrenamiento. Se muestran rendimientos similares para el conjunto de validación y prueba. Los modelos multitarea superan al modelo de tarea única.

Investigamos si el rendimiento del modelo podría mejorarse ajustando los pesos de la pérdida de las tareas individuales en la función de costo total utilizando tres métodos diferentes. El método A, cuyos resultados se describen anteriormente, pondera todas las tareas por igual. El método B reduce a la mitad el peso de las tareas de aprendizaje fuertemente relacionadas (consulte “Métodos” para obtener más detalles). El método C mantiene constante la contribución de la pérdida de predicción de la interfaz PPI como el 50% de la suma de las ponderaciones de todas las tareas de predicción, lo que otorga una importancia mucho mayor a la tarea IF. Ambos métodos se probaron durante el entrenamiento de los modelos IFBUS3SA, IFBUS8SA e IFBUS3S8SA (consulte la Figura complementaria 7A). El método B también se comparó con modelos que incluían solo una de las tareas de predicción similares (consulte la figura complementaria 7B). Los resultados no sugieren un aumento en el rendimiento del modelo. Por tanto, el modelo no parece ser muy sensible a los pesos de la función de costos.

Al comparar el rendimiento del modelo con y sin extensión de datos (en la Tabla 2 y la Figura 3), podemos observar un aumento sutil en el rendimiento de los conjuntos de datos de entrenamiento ampliados con información de propiedades estructurales, pero sin anotaciones adicionales de la interfaz PPI. Estos resultados sugieren que la predicción de la interfaz se beneficia no sólo de la estrategia de aprendizaje multitarea al anotar las secuencias de proteínas en el conjunto de datos de PPI mediante la información de la tarea relacionada, sino también del entrenamiento con datos adicionales de las tareas relacionadas únicamente, como lo proporciona la versión parcial. conjunto de datos anotado.

Para investigar más a fondo estos resultados, reducimos las anotaciones de la interfaz PPI en los conjuntos de datos. Evaluamos el alumno de tarea única y el modelo IFBUS3SA de mejor rendimiento en ambos conjuntos de datos en los que solo se considera una parte de los datos, ver Fig. 4. Entrenamos el modelo de tarea única y el modelo IFBUS3SA en una parte del conjunto de datos PPI . A continuación, entrenamos el modelo IFBUS3SA en el conjunto de datos PPI_extendedSFD para el cual incluimos solo una parte de las anotaciones PPI. En cada paso de disminución de datos, los tres modelos se entrenan con la misma información de la interfaz PPI y todos los modelos se evalúan en el conjunto de validación total. El rendimiento del modelo se mide mediante AUC ROC para la predicción PPI IF.

La importancia de la configuración multitarea y la extensión de datos al entrenar un modelo de predicción de interfaz PPI entrenado con datos limitados. Se comparan el modelo de tarea única IF (rosa) y el modelo de tarea múltiple IFBUS3SA (rojo y marrón). El modelo IF y el modelo IFBUS3SA indicados en rojo se entrenan en una parte del conjunto de datos PPI. Por lo tanto, las diferencias en el rendimiento entre las barras rosa y roja presentan el beneficio de la estrategia de aprendizaje multitarea. El modelo IFBUS3SA en marrón se entrena en el conjunto de datos PPI_extendedSFD en el que solo se considera una parte de la información de la interfaz PPI. Por tanto, todas las barras marrones se entrenan en el mismo número de secuencias para las que está disponible la información de la tarea relacionada. Las diferencias en el rendimiento entre las barras rojas y marrones indican el beneficio de entrenar el modelo en el conjunto de datos PPI_extendedSFD aumentado. El rendimiento del modelo se muestra mediante la media AUC ROC (barras) y la desviación estándar (bigotes) de la predicción de la interfaz PPI en el conjunto de validación total.

La Figura 4 muestra que, como se esperaba, menos datos de entrenamiento generalmente conducen a un peor desempeño para todas las estrategias. Para conjuntos de datos de entrenamiento muy pequeños (por ejemplo, una vigésima parte de los datos totales), el aprendizaje multitarea (barras rojas), sin ampliar los datos, no supera significativamente la estrategia de tarea única (barras rosadas) (Fig. 4). Probablemente esto también se deba a la falta de información suficiente para entrenar.

La Figura 4 también muestra que cuanto más pequeños son los conjuntos de datos de entrenamiento, mayor es la diferencia en el rendimiento entre la estrategia de tarea única (barras rosas) y la estrategia de tareas múltiples con extensión de datos (barras marrones). Por lo tanto, el rendimiento del modelo multitarea mejora considerablemente cuando el conjunto de datos de entrenamiento se aumenta con proteínas que solo contienen anotaciones estructurales, pero para las cuales faltan las anotaciones PPI, es decir, cuando se entrena en el conjunto de datos PPI_extendedSFD (marrón en comparación con rojo). Por lo tanto, la información capturada por las tareas de aprendizaje relacionadas mejora la predicción de la interfaz PPI incluso si las anotaciones de la interfaz PPI no están disponibles para la mayoría de las proteínas en el conjunto de entrenamiento. Asimismo, la extensión de los datos se vuelve más importante si los datos anotados de la interfaz PPI son muy escasos. Se alcanzan rendimientos iguales para el modelo IF entrenado en toda la información de la interfaz PPI disponible (barra rosa etiquetada 'todos') y el modelo IFBUS3SA entrenado en el conjunto de datos PPI_extendedSFD que incluye solo una octava parte de la información de la interfaz PPI disponible (barra marrón etiquetada '1/ 8').

Para confirmar estos resultados, también probamos los modelos incluyendo todos, 1/2, 1/, 1/20 y 1/200 de los datos en un conjunto de pruebas independiente. Los resultados se muestran en la figura complementaria 8 y están en línea con los resultados descritos anteriormente.

Realizamos un análisis de errores en proteínas individuales en el conjunto de prueba después de entrenar el modelo multitarea IFBUS3SA para obtener información biológica sobre las predicciones generadas por los modelos. La Figura 5 muestra la curva de características del operador del receptor para cuatro proteínas ejemplares individuales. Los residuos objetivo y predichos se muestran utilizando el visor de estructuras UCSF ChimeraX59 (ver Fig. 5).

Las proteínas con valores altos de AUC ROC muestran muchos residuos de interfaz predichos correctamente (indicados en amarillo en las figuras 5b-d). Los residuos falsos positivos, que son residuos predichos como residuos de interfaz pero no indicados como tales en el estándar de oro (indicados en blanco en las figuras 5b-e), generalmente están ubicados cerca de la interfaz real para aquellos (consulte la figura 5b). Las proteínas correspondientes a valores más bajos de AUC ROC muestran algunos falsos negativos, que son residuos de interfaz que el modelo no predice como residuos de interfaz (indicados en rojo en las figuras 5c-e), y muchos falsos positivos. Tenga en cuenta que se producen algunos falsos positivos en regiones localizadas de la estructura, lo que posiblemente indique una región de interfaz PPI verdadera que no está anotada en el conjunto de datos. Por ejemplo, en la Fig. 5b, los falsos positivos ubicados en las hélices \(\alpha\), en realidad forman una interfaz secundaria en la estructura tetramérica. Para una proteína, con una interfaz muy pequeña, no se observaron residuos predichos correctamente (ver Fig. 5d).

Análisis de cuatro proteínas en el conjunto de prueba después de entrenar el modelo multitarea IFBUS3SA en el conjunto de datos PPI_extendedSFD. (a) La curva de características del operador del receptor (ROC) de las cuatro proteínas (4wilA en azul, 3rtlA en naranja, 1vkcA en verde y 4a0eA en rojo) con su área correspondiente bajo la puntuación de la curva (AUC ROC). ( b – e ) Estructuras proteicas visualizadas correspondientes a las proteínas en la curva ROC. Las cadenas de proteínas que contienen la interfaz prevista se indican en azul oscuro, los socios de unión se indican en verde. Los residuos predichos correctamente se colorean en amarillo, los residuos falsos positivos en blanco y los residuos falsos negativos en rojo. (b) Estructura proteica de la proteína 4wilA, correspondiente a la línea azul claro en la curva ROC. (c) Estructura proteica de la proteína 3rtlA, correspondiente a la línea naranja en la curva ROC. (d) Estructura proteica de la proteína 1vkcA, correspondiente a la línea verde en la curva ROC. (e) Estructura proteica de la proteína 4a0eA, correspondiente a la línea roja en la curva ROC.

Para analizar las tendencias de error con más detalle, entrenamos cuatro modelos multitarea diferentes, utilizando diferentes rondas de entrenamiento, y determinamos el rendimiento medio por proteína en el conjunto de prueba. La Figura 6a muestra que las proteínas con valores AUC ROC bajos (<0,4) para la predicción de la interfaz PPI son todas proteínas que contienen una pequeña región de interfaz anotada. Sin embargo, las proteínas que contienen interfaces pequeñas no necesariamente dan como resultado puntuaciones de predicción bajas. Además, estudiamos la relación entre la predicción de la interfaz PPI y las predicciones de tareas relacionadas. Esto se hizo para probar si las proteínas correspondientes a puntuaciones AUC-ROC bajas son, en general, proteínas cuyas características estructurales son difíciles de predecir. Se determinó \({R}^2\) y resultó en 0.010 para los residuos enterrados, 0.016 para la estructura secundaria en tres clases y 0.031 para la accesibilidad absoluta al solvente. Por lo tanto, no se encontró una correlación considerable entre el valor AUC ROC de la predicción de la interfaz PPI y la tarea de aprendizaje relacionada para el modelo IFBUS3SA (ver Fig. 6b). Se llegó a la misma conclusión después de realizar este análisis en el modelo IFBUS3SA entrenado en solo una décima parte de la información de la interfaz PPI (consulte la Figura complementaria 9).

Análisis de errores en las proteínas individuales en el conjunto de prueba después de entrenar el modelo IFBUS3SA en el conjunto de datos PPI_extendedSFD. (a) El AUC ROC medio de la predicción de la interfaz se representa frente al número de residuos de la interfaz por proteína. Las puntuaciones bajas de AUC ROC (<0,4) solo se observan cuando la región de interfaz de la proteína es pequeña (<20 residuos). (b) La precisión media de las características estructurales predichas (BU, S3 y SA) y el coeficiente de correlación medio de Pearson de la accesibilidad absoluta al disolvente se representan frente a la puntuación media AUC ROC de la predicción de la interfaz PPI por proteína. Se realizó una regresión lineal dando como resultado un R2 de 0,010 (BU), 0,016 (S3) y 0,031 (SA).

Predecir la interfaz de interacción proteína-proteína a partir de la secuencia es una tarea difícil y las anotaciones de los residuos de la interfaz son escasas. Aquí, mostramos cómo superar el problema del tamaño limitado de los conjuntos de datos entrenando una red neuronal profunda que predice los residuos de la interfaz PPI utilizando una estrategia de aprendizaje multitarea en un conjunto de datos parcialmente anotado. Todos nuestros modelos multitarea superan significativamente al modelo de tarea única (P <0,001) en los conjuntos de datos PPI y PPI_extendedSFD. El modelo de tarea única logra AUC ROC: 73,2% ± 0,4, mientras que el modelo multitarea de mejor rendimiento alcanza 76,3% ± 0,2; este último modelo incluye como tareas de predicción relacionadas la identificación de residuos enterrados, estructura secundaria y accesibilidad absoluta al disolvente, además de predecir la interfaz PPI. Los resultados del conjunto de pruebas independientes están en línea con los resultados del conjunto de validación. Por lo tanto, las representaciones aprendidas mediante las tareas de anotación estructural relacionadas pueden ayudar al modelo con la tarea de clasificar los residuos de la interfaz PPI.

Mostramos que el beneficio adicional de la configuración multitarea se puede aumentar aún más agregando anotaciones solo para las tareas relacionadas: la predicción de la interfaz PPI mejoró drásticamente cuando ampliamos el conjunto de datos de entrenamiento PPI limitado con muestras adicionales (proteínas) para las cuales solo las estructuras relacionadas anotaciones estaban disponibles. Además, la configuración multitarea se vuelve aún más importante cuando se reduce el conjunto de entrenamiento. Para resaltar la solidez de esto, eliminamos toda la información de la interfaz PPI menos una octava del conjunto de datos ampliado. En este escenario, el modelo multitarea aún logra puntuaciones de rendimiento similares a las del alumno de una sola tarea cuando se entrena con toda la información de la interfaz PPI. Por lo tanto, mostramos que formular una tarea de predicción como un problema de aprendizaje multitarea puede ser inmensamente poderoso para tareas de predicción estructural (o funcional) de proteínas para las cuales solo está disponible un pequeño conjunto de datos de entrenamiento anotados.

Nuestra hipótesis es que la representación del modelo compartido permite conocer propiedades fundamentales de la estructura de la proteína. Aprender tareas relacionadas, como qué aminoácidos están expuestos a la superficie, hará que la representación aprendida sea más relevante. En particular, es de esperar que la información sobre la accesibilidad de la superficie sea crucial para decidir si un residuo es un residuo de interfaz o no. Además, existen diferencias notables entre la composición de aminoácidos de los residuos de la superficie, la interfaz y el núcleo60. Klausen et al.15 y Xu et al.17 ya demostraron que el aprendizaje conjunto de la estructura secundaria y la accesibilidad de la superficie puede hacer que los modelos de aprendizaje sean más precisos. Aquí mostramos dos puntos adicionales (1) las anotaciones funcionales en la estructura de las proteínas también se benefician de esta representación compartida y (2) la configuración de tareas múltiples se vuelve especialmente poderosa si para una de las tareas hay disponible una cantidad muy limitada de datos.

Es importante mencionar que en los conjuntos de datos estructurales actuales, es probable que muchos residuos verdaderos de la interfaz de interacción proteína-proteína (PPI) no estén anotados como tales, simplemente porque no hay estructuras PDB disponibles de los estados enlazados relevantes. Por lo tanto, faltarán algunas interfaces de unión proteína-proteína verdaderas en cualquier conjunto de datos estructurales utilizado para el entrenamiento y la evaluación del rendimiento de cualquier método de predicción de interfaz PPI.

El alcance de este estudio es proporcionar una prueba de principio para el uso del aprendizaje multitarea para mejorar el rendimiento de predicción para tareas de estructura de proteínas con escasas anotaciones funcionales, como las interfaces PPI. Nuestro modelo de aprendizaje es comparable al modelo multitarea utilizado en OPUS-TASS17, con la capacidad adicional de entrenar con datos parcialmente anotados. No realizamos un ajuste exhaustivo de la arquitectura para obtener la mayor precisión posible en la predicción de la interfaz PPI. Sin embargo, nuestras puntuaciones AUC ROC resultantes son comparables a los métodos de última generación publicados para la predicción de la interfaz PPI. Tenga en cuenta que el rendimiento de estos diferentes métodos no se puede comparar directamente ya que se utilizaron diferentes conjuntos de prueba. Sin embargo, incluiremos una discusión del rendimiento medido de estos modelos para proporcionar un contexto sobre el cual interpretar mejor nuestros resultados y comparar qué características se incluyeron y cómo se usaron en el modelo de predicción. Zhang y Kurgan9 proporcionan una descripción general reciente de los predictores más modernos del IPP, que recientemente ampliamos con una comparación con algunos de nuestros propios métodos23. Todas estas comparaciones se realizaron en su conjunto de datos de referencia ZK44814 utilizando varias métricas; a continuación enumeramos sus puntuaciones AUC-ROC (a menos que se indique lo contrario). SSWRF de Wei et al.30 alcanzó un AUC-ROC del 68,7%; superó a los métodos de última generación en 2016. De manera similar a nuestro modelo multitarea, este método utilizó información del PSSM y la accesibilidad al solvente. En SSWRF ambas se utilizan como función de entrada, mientras que en nuestro modelo esta última se utiliza como tarea de aprendizaje relacionada. Su tercera característica de entrada, la hidropatía acumulada promediada, no se consideró para nuestro método. SeRenDIP de Hou et al.7,31 logró posteriormente una puntuación AUC ROC del 70,7 % en un conjunto de datos de complejos proteicos homoméricos y heteroméricos (HHC). SeRenDIP no se comparó directamente con SSWRF, pero en el conjunto de pruebas HHC superó a los modelos de predicción de PPI más antiguos, SPPIDER61 y PSIVER62. SeRenDIP utiliza conservación, accesibilidad a solventes y estructura secundaria como características de entrada para generar predicciones de la interfaz PPI. Además, SeRenDIP incluye dinámica de red troncal y longitud de secuencia, que no se utilizan en nuestro modelo multitarea actual. SCRIBER logra un AUC ROC del 71,5 %, superando, entre otros, a SPPIDER (51,7 %), PSIVER (58,1 %) y SSWRF en su equipo de prueba ZK4489. SCRIBER utiliza la conservación evolutiva, la accesibilidad relativa a los disolventes y las características de la estructura secundaria como características de entrada. Además, SCRIBER utiliza las propiedades fisicoquímicas de los aminoácidos como entrada (carga, hidrofobicidad, polaridad, alifaticidad, aromaticidad, acidez y tamaño), así como la propensión relativa a la interfaz de aminoácidos y anotaciones de regiones intrínsecamente desordenadas. Tenga en cuenta que también se pueden incluir funciones adicionales, como las utilizadas en otros métodos, en nuestro modelo multitarea, ya sea como funciones de entrada o como tarea de aprendizaje relacionada. Por ejemplo, hemos demostrado anteriormente que incluir la longitud de la secuencia y la flexibilidad de la columna vertebral como características de entrada mejora la predicción de PPI7 y las regiones de epítopos13. Además, se podrían agregar como entrada o como tarea relacionada características basadas en estructuras, como contactos de residuos (predichos) u otras características 3D (predichas). Los avances recientes en la predicción de estructuras 3D2 sugieren que esta puede ser una forma probable de mejorar aún más la predicción de la interfaz PPI. Sin embargo, habría que adaptar la arquitectura del modelo. Varios estudios presentaron modelos para predecir la interacción entre proteínas y otras moléculas como péptidos, moléculas pequeñas y ácidos nucleicos9,23,63. Estas anotaciones podrían usarse potencialmente como tareas relacionadas y pueden mejorar aún más el rendimiento del modelo.

Aunque no realizamos un ajuste exhaustivo del modelo, investigamos algunos parámetros que probablemente afecten el aprendizaje multiclase. Implementamos la estrategia de aprendizaje multitarea mediante la función de pérdida combinada que se utiliza en todas las capas del modelo (excepto la capa de salida). Estas capas se comparten entre todas las tareas incluidas. Exploramos ajustar los pesos de las diferentes tareas, sin embargo, esto no resultó en ninguna mejora en el rendimiento.

Además, intentamos mejorar las predicciones de la interfaz PPI incluyendo la predicción del ángulo de torsión, utilizando las etiquetas OPUS-TASS. Sin embargo, no se mostró ninguna mejora significativa para el modelo mejor presentado en este documento. En este trabajo, ajustamos la tasa de aprendizaje inicial, creamos nuestras propias etiquetas de salida adicionales y establecimos pesos para la función de pérdida combinada y el desequilibrio de clases para la predicción de la interfaz PPI. Nuestra hipótesis es que se podrían lograr rendimientos de predicción de la interfaz PPI similares al simplificar la arquitectura del modelo. Otros estudios deberían concluir si el rendimiento podría mejorarse aún más al ajustar el modelo. Sin embargo, aquí mostramos el beneficio sustancial de la estrategia de aprendizaje multitarea en un conjunto de datos parcialmente anotado para lograr desempeños precisos para la difícil tarea de predicción de la interfaz PPI. Por lo tanto, esperamos que la configuración de tareas múltiples y la extensión de datos sean de valor significativo en otras tareas de predicción estructural o funcional de proteínas en las que el tamaño de los conjuntos de entrenamiento anotados es (extremadamente) limitado.

El código está disponible en https://github.com/ibivu/multi-task-PPI. Tenga en cuenta que todas las estructuras de proteínas experimentales utilizadas en este estudio se han depositado en el PDB43. Los códigos de acceso a PDB, así como las funciones generadas y las etiquetas de salida utilizadas para la capacitación y la validación, están disponibles en https://ibi.vu.nl/downloads/multi-task-PPI/.

Se revisó la versión original en línea de este artículo: en la versión original de este artículo se omitió el ID ORCID de Henriette Capel, K. Anton Feenstra y Sanne Abeln. El ID ORCID de Henriette Capel es 0000-0002-3757-5313, el ID ORCID de K. Anton Feenstra es 0000-0001-6755-9667 y el ID ORCID de Sanne Abeln es 0000-0002-2779-7174.

Consorcio, TU UniProt: La base de conocimientos universal sobre proteínas en 2021. Nucl. Ácidos res. 49, D480–D489. https://doi.org/10.1093/nar/gkaa1100 (2020).

Artículo CAS Google Scholar

Saltador, J. et al. Predicción de estructura de proteínas de alta precisión con AlphaFold. Naturaleza 596, 583–589 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Zhang, J. & Kurgan, L. Revisión y evaluación comparativa de predictores basados ​​en secuencias de residuos de unión a proteínas. Breve. Bioinformar. 19, 821–837. https://doi.org/10.1093/bib/bbx022 (2018).

Artículo CAS PubMed Google Scholar

Uetz, P. y col. Un análisis completo de las interacciones proteína-proteína en Saccharomyces cerevisiae. Naturaleza 403, 623–627 (2000).

Artículo ADS CAS PubMed Google Scholar

Jones, S. y Thornton, JM Principios de las interacciones proteína-proteína. Proc. Nacional. Acad. Ciencia. 93, 13-20 (1996).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Vinayagam, A. y col. Una red de interacción de proteínas dirigida para investigar la transducción de señales intracelulares. Ciencia. Señal. 4, rs8 (2011).

Artículo PubMed Google Scholar

Hou, Q., Geest, P., Vranken, W. & Feenstra, KA Ver los árboles a través del bosque: predicción de sitios de interacción proteína-proteína homo y heteromérica basada en secuencias utilizando un bosque aleatorio. Bioinformática 33, 1479-1487. https://doi.org/10.1093/bioinformatics/btx005 (2017).

Artículo CAS PubMed Google Scholar

Sanchez-Garcia, R., Sorzano, COS, Carazo, JM & Segura, J. BIPSPI: Un método para la predicción de interfaces proteína-proteína específicas de la pareja. Bioinformática 35, 470–477 (2019).

Artículo CAS PubMed Google Scholar

Zhang, J. & Kurgan, L. SCRIBER: Predicción precisa y específica del tipo de pareja de residuos de unión a proteínas a partir de secuencias de proteínas. Bioinformática 35, i343 – i353 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Shoemaker, BA y Panchenko, AR Descifrando las interacciones proteína-proteína. Parte I. Técnicas experimentales y bases de datos. Computación PLoS. Biol. 3, 1–8. https://doi.org/10.1371/journal.pcbi.0030042 (2007).

Artículo ADS CAS Google Scholar

Kuzmanov, U. y Emili, A. Redes de interacción proteína-proteína: sondeo de mecanismos de enfermedades utilizando sistemas modelo. Genoma Med. 5, 1-12 (2013).

Artículo de Google Scholar

Savojardo, C., Martelli, PL y Casadio, R. Métodos de interacción proteína-proteína y separación de fases proteicas. Ana. Rev. Biomed. Ciencia de datos. 3, 89-112 (2020).

Artículo de Google Scholar

Hou, Q. y col. SeRenDIP-CE: predicción de interfaz basada en secuencias para epítopos conformacionales. Bioinformática https://doi.org/10.1093/bioinformatics/btab321 (2021).

Artículo PubMed PubMed Central Google Scholar

Zhang, Y. & Yang, Q. Una descripción general del aprendizaje multitarea. Nacional. Ciencia. Apocalipsis 5, 30–43. https://doi.org/10.1093/nsr/nwx105 (2018).

ADS del artículo Google Scholar

Klausen, M. y col. NetSurfP-2.0: Predicción mejorada de características estructurales de proteínas mediante aprendizaje profundo integrado. Estructura de las proteínas. Función. Bioinformar. 87, 520–527. https://doi.org/10.1002/prot.25674 (2019).

Artículo CAS Google Scholar

Hanson, J., Paliwal, K., Litfin, T., Yang, Y. & Zhou, Y. Mejora de la predicción de la estructura secundaria de proteínas, ángulos de la columna vertebral, accesibilidad a solventes y números de contacto mediante el uso de mapas de contacto predichos y un conjunto de mapas de contacto recurrentes y Redes neuronales convolucionales residuales. Bioinformática 35, 2403–2410. https://doi.org/10.1093/bioinformatics/bty1006 (2019).

Artículo CAS PubMed Google Scholar

Xu, G., Wang, Q. & Ma, J. OPUS-TASS: Un predictor de estructura secundaria y ángulos de torsión de la columna vertebral de proteínas basado en redes neuronales de conjunto. Bioinformática 36, ​​5021–5026. https://doi.org/10.1093/bioinformatics/btaa629 (2020).

Artículo CAS PubMed Google Scholar

Goodfellow, I., Bengio, Y., Courville, A. y Bengio, Y. Aprendizaje profundo vol. 1 (Prensa del MIT, 2016).

MATEMÁTICAS Google Scholar

Heffernan, R. y col. Mejora de la predicción de la estructura secundaria, los ángulos de la columna vertebral local y el área de superficie de las proteínas accesible a disolventes mediante el aprendizaje profundo iterativo. Ciencia. Rep. 5, 11476. https://doi.org/10.1038/srep11476 (2015).

Artículo ADS PubMed PubMed Central Google Scholar

Wang, S., Li, W., Liu, S. y Xu, J. RaptorX-property: un servidor web para la predicción de propiedades de la estructura de proteínas. Núcleo. Ácidos res. 44, gkw306. https://doi.org/10.1093/nar/gkw306 (2016).

Artículo CAS Google Scholar

Heffernan, R., Yang, Y., Paliwal, K. y Zhou, Y. Captura de interacciones no locales mediante redes neuronales recurrentes bidireccionales de memoria a corto plazo para mejorar la predicción de la estructura secundaria de proteínas, los ángulos de la columna vertebral, los números de contacto y la accesibilidad a disolventes . Bioinformática 33, 2842–2849. https://doi.org/10.1093/bioinformatics/btx218 (2017).

Artículo CAS PubMed Google Scholar

Gao, Y., Wang, S., Deng, M. & Xu, J. Predicción de confianza y valor real de los ángulos diédricos de la columna vertebral de proteínas mediante un método híbrido de agrupación y aprendizaje profundo. Bioinformación de BMC. https://doi.org/10.1186/s12859-018-2065-x (2018).

Artículo de Google Scholar

Stringer, B. y col. PIPENN: Predicción de la interfaz de proteínas con un conjunto de redes neuronales. Bioinformática 38, 2111–2118. https://doi.org/10.1093/bioinformatics/btac071 (2022).

Artículo CAS PubMed Central Google Scholar

Rao, R. et al. Evaluación del aprendizaje por transferencia de proteínas con TAPE. Adv. Inf. neuronal. Proceso. Sistema. 32, 9689 (2019).

PubMed PubMed Central Google Académico

Madani, A. y col. Progen: Modelado del lenguaje para la generación de proteínas. Preimpresión de arXiv arXiv:2004.03497 (2020).

Caruana, R. Aprendizaje multitarea. Mach. Aprender. 28, 41–75 (1997).

Artículo de Google Scholar

Pan, SJ y Yang, Q. Una encuesta sobre el aprendizaje por transferencia. Traducción IEEE. Conocimiento. Ing. de datos. 22, 1345-1359 (2009).

Artículo de Google Scholar

Ofran, Y. & Rost, B. ISIS: Sitios de interacción identificados a partir de la secuencia. Bioinformática 23, e13 – e16 (2007).

Artículo CAS PubMed Google Scholar

Li, B.-Q., Feng, K.-Y., Chen, L., Huang, T. y Cai, Y.-D. Predicción de sitios de interacción proteína-proteína mediante algoritmo de bosque aleatorio con mRMR e IFS. MÁS UNO 7, e43927 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Wei, Z.-S., Han, K., Yang, J.-Y., Shen, H.-B. y Yu, D.-J. Predicción de sitios de interacción proteína-proteína mediante el ensamblaje de SVM y bosques aleatorios ponderados por muestra. Neurocomputación 193, 201–212 (2016).

Artículo de Google Scholar

Hou, Q. y col. SeRenDIP: REmasterización secuencial para derivar perfiles para predicciones rápidas y precisas de las posiciones de la interfaz PPI. Bioinformática 35, 4794–4796. https://doi.org/10.1093/bioinformatics/btz428 (2019).

Artículo CAS PubMed Google Scholar

Chen, H. y Zhou, H.-X. Predicción de residuos de interfaz en complejos proteína-proteína mediante un método de red neuronal de consenso: prueba con datos de RMN. Estructura de las proteínas. Función. Bioinformar. 61, 21–35 (2005).

Artículo CAS Google Scholar

Hoskins, J., Lovell, S. y Blundell, TL Un algoritmo para predecir sitios de interacción proteína-proteína: residuos de aminoácidos anormalmente expuestos y elementos de estructura secundaria. Ciencia de las proteínas. 15, 1017-1029 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

de Vries, SJ & Bonvin, AM Cómo se ponen en contacto las proteínas: predicción de interfaces en el estudio de complejos biomoleculares. actual. Ciencia de péptidos proteicos. 9, 394–406 (2008).

Artículo de Google Scholar

Faber, H. & Matthews, B. Una lisozima t4 mutante muestra cinco conformaciones cristalinas diferentes. Naturaleza 348, 263–266 (1990).

Artículo ADS CAS PubMed Google Scholar

Wright, PE y Dyson, HJ Proteínas intrínsecamente no estructuradas: reevaluación del paradigma estructura-función de las proteínas. J. Mol. Biol. 293, 321–331 (1999).

Artículo CAS PubMed Google Scholar

Zvelebil, MJ y Baum, JO Comprensión de la bioinformática (Garland Science, 2007).

Libro MATEMÁTICAS Google Scholar

Ma, B., Elkayam, T., Wolfson, H. y Nussinov, R. Interacciones proteína-proteína: los residuos estructuralmente conservados distinguen entre los sitios de unión y las superficies proteicas expuestas. Proc. Nacional. Acad. Ciencia. Estados Unidos 100, 5772–5777. https://doi.org/10.1073/pnas.1030237100 (2003).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Carl, N., Konc, J. y Janezic, D. Conservación de la superficie de proteínas en los sitios de unión. J. química. inf. Modelo. 48, 1279–86. https://doi.org/10.1021/ci8000315 (2008).

Artículo CAS PubMed Google Scholar

Choi, YS, Yang, J.-S., Choi, Y., Ryu, SH y Kim, S. Conservación evolutiva en múltiples caras de la interacción de proteínas. Proteínas 77, 14-25. https://doi.org/10.1002/prot.22410 (2009).

Artículo CAS PubMed Google Scholar

Hanson, J., Paliwal, K., Litfin, T., Yang, Y. y Zhou, Y. Predicción precisa de mapas de contacto de proteínas mediante el acoplamiento de memoria bidireccional a largo plazo residual bidimensional con redes neuronales convolucionales. Bioinformática 34, 4039–4045 (2018).

CAS PubMed Google Académico

Wang, G. & Dunbrack, RL Jr. PISCIS: Un servidor de selección de secuencias de proteínas. Bioinformática 19, 1589-1591 (2003).

Artículo CAS PubMed Google Scholar

Berman, HM y cols. El banco de datos de proteínas. Núcleo. Ácidos res. 28, 235–242 (2000).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Altschul, SF y cols. Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas. Núcleo. Ácidos res. 25, 3389–3402 (1997).

Artículo CAS PubMed PubMed Central Google Scholar

Suzek, BE y cols. Clústeres UniRef: una alternativa integral y escalable para mejorar las búsquedas de similitud de secuencias. Bioinformática 31, 926–932 (2015).

Artículo CAS PubMed Google Scholar

Steinegger, M. y col. HH-suite3 para una rápida detección remota de homologías y una anotación profunda de proteínas. Bioinformación de BMC. 20, 1-15 (2019).

Artículo CAS Google Scholar

Mirdita, M. et al. Bases de datos Uniclust de secuencias y alineamientos de proteínas agrupadas y profundamente anotadas. Núcleo. Ácidos res. 45, D170-D176 (2017).

Artículo CAS PubMed Google Scholar

Remmert, M., Biegert, A., Hauser, A. y Söding, J. HHblits: búsqueda iterativa de secuencias de proteínas ultrarrápida mediante alineación HMM-HMM. Nat. Métodos 9, 173–175 (2012).

Artículo CAS Google Scholar

Meiler, J., Müller, M., Zeidler, A. & Schmäschke, F. Generación y evaluación de representaciones de parámetros de aminoácidos de dimensión reducida mediante redes neuronales artificiales. Mol. Modelo. Ana. 7, 360–369 (2001).

Artículo CAS Google Scholar

Lu, M., Dousis, AD & Ma, J. OPUS-PSP: Un potencial estadístico de todos los átomos dependiente de la orientación derivado del empaquetamiento de cadenas laterales. J. Mol. Biol. 376, 288–301 (2008).

Artículo CAS PubMed Google Scholar

Kabsch, W. y Sander, C. Diccionario de estructura secundaria de proteínas: reconocimiento de patrones de características geométricas y de enlaces de hidrógeno. Biopolímeros Res. Original. Biomoléculas 22, 2577–2637 (1983).

CAS Google Académico

Hubbard, T. & Blundell, T. Comparación de núcleos de proteínas homólogas inaccesibles a disolventes: definiciones útiles para el modelado de proteínas. Ing. Proteínas. Des. Seleccionar. 1, 159-171 (1987).

Artículo CAS Google Scholar

Abadi, M. et al. Tensorflow: un sistema para el aprendizaje automático a gran escala. En el 12º Simposio USENIX sobre diseño e implementación de sistemas operativos (OSDI 16), 265–283 (2016).

Kingma, DP & Ba, J. Adam: Un método de optimización estocástica. Preimpresión de arXiv arXiv:1412.6980 (2014).

Streiner, DL y Cairney, J. ¿Qué hay bajo la República de China? Una introducción a las curvas de características operativas del receptor. Poder. J. Psiquiatría 52, 121-128 (2007).

Artículo PubMed Google Scholar

Sokolova, M., Japkowicz, N. y Szpakowicz, S. Más allá de la precisión, f-score y roc: una familia de medidas discriminantes para la evaluación del desempeño. En Conferencia conjunta de Australasia sobre inteligencia artificial, 1015-1021 (Springer, 2006).

Benesty, J., Chen, J., Huang, Y. y Cohen, I. Coeficiente de correlación de Pearson. En Reducción de ruido en el procesamiento del habla, 1–4 (Springer, 2009).

Hanley, JA y McNeil, BJ El significado y uso del área bajo una curva característica operativa del receptor (ROC). Radiología 143, 29–36 (1982).

Artículo CAS PubMed Google Scholar

Pettersen, EF y cols. UCSF ChimeraX: visualización de estructuras para investigadores, educadores y desarrolladores. Ciencia de las proteínas. 30, 70–82 (2021).

Artículo CAS PubMed Google Scholar

Yan, C., Wu, F., Jernigan, RL, Dobbs, D. y Honavar, V. Caracterización de interfaces proteína-proteína. Proteína J. 27, 59–70. https://doi.org/10.1007/S10930-007-9108-X (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Porollo, A. & Meller, J. Huellas dactilares basadas en predicciones de interacciones proteína-proteína. Estructura de las proteínas. Función. Bioinformar. 66, 630–645 (2007).

Artículo CAS Google Scholar

Murakami, Y. & Mizuguchi, K. Aplicación del clasificador ingenuo de Bayes con estimación de la densidad del grano a la predicción de sitios de interacción proteína-proteína. Bioinformática 26, 1841–1848 (2010).

Artículo CAS PubMed Google Scholar

Yan, J. & Kurgan, L. DRNApred, método rápido basado en secuencias que predice y discrimina con precisión los residuos de unión de ADN y ARN. Núcleo. Ácidos res. 45, e84 (2017).

PubMed PubMed Central Google Académico

Bal, H. y col. Un sistema distribuido de mediana escala para la investigación en informática: infraestructura para el largo plazo. Computadora 49, 54–63. https://doi.org/10.1109/MC.2016.127 (2016).

Artículo de Google Scholar

Descargar referencias

Agradecemos a Peter Bloem por estimular los debates y sus valiosos consejos sobre la configuración del aprendizaje. Reconocemos amablemente el uso de la supercomputadora ASCI distribuida DAS-5 en la Universidad VU de Ámsterdam64.

Sección de Bioinformática VU, Vrije Universiteit Amsterdam, 1081HV, Amsterdam, Países Bajos

Henriette Capel, K. Anton Feenstra y Sanne Abeln

Ciencias de la vida y salud, CWI, Ámsterdam, Países Bajos

Verdadero Abeln

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

SA diseñó los experimentos. HC recopiló los conjuntos de datos, implementó los métodos y realizó los experimentos. HC, KAF y SA analizaron e interpretaron los resultados, escribieron y revisaron el texto del artículo y aprobaron la versión final para su publicación.

Correspondencia a Sanne Abeln.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Capel, H., Feenstra, KA y Abeln, S. Aprendizaje multitarea para aprovechar datos parcialmente anotados para la predicción de la interfaz PPI. Representante científico 12, 10487 (2022). https://doi.org/10.1038/s41598-022-13951-2

Descargar cita

Recibido: 17 de enero de 2022

Aceptado: 31 de mayo de 2022

Publicado: 21 de junio de 2022

DOI: https://doi.org/10.1038/s41598-022-13951-2

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Inteligencia de la máquina de la naturaleza (2023)

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.