banner
Hogar / Noticias / Modelo bayesiano de predicción del riesgo de mortalidad por cáncer colorrectal mediante la integración de datos clínico-patológicos y genómicos
Noticias

Modelo bayesiano de predicción del riesgo de mortalidad por cáncer colorrectal mediante la integración de datos clínico-patológicos y genómicos

Jun 05, 2024Jun 05, 2024

npj Precision Oncology volumen 7, número de artículo: 57 (2023) Citar este artículo

1373 Accesos

3 altmétrico

Detalles de métricas

La estadificación rutinaria de metástasis tumor-nódulo (TNM) del cáncer colorrectal es imperfecta para predecir la supervivencia debido a la heterogeneidad patobiológica del tumor y la evaluación imprecisa de la diseminación del tumor. Aprovechamos los árboles de regresión aditiva bayesiana (BART), una técnica de aprendizaje estadístico, para analizar exhaustivamente las características tumorales específicas del paciente para mejorar la predicción del pronóstico. De 75 variables clínico-patológicas, inmunes, microbianas y genómicas en 815 pacientes en estadio II-III dentro de dos estudios de cohorte prospectivos en todo Estados Unidos, el modelo de riesgo BART identificó siete predictores de supervivencia estables. Las estratificaciones de riesgo (riesgo bajo, riesgo intermedio y riesgo alto) basadas en la supervivencia predicha por el modelo fueron estadísticamente significativas (cocientes de riesgo 0,19–0,45, frente a riesgo más alto; P < 0,0001) y pudieron validarse externamente utilizando el Atlas del Genoma del Cáncer (TCGA). ) datos (P = 0,0004). BART demostró flexibilidad, interpretabilidad y rendimiento comparable o superior al de otros modelos de aprendizaje automático. Los análisis bioinformáticos integrados que utilizan BART con factores específicos de tumores pueden estratificar de manera sólida a los pacientes con cáncer colorrectal en grupos de pronóstico y aplicarse fácilmente a la práctica de oncología clínica.

El cáncer colorrectal se desarrolla en el contexto de una interacción compleja entre el huésped, los microbios y las células neoplásicas en el microambiente intestinal local1. La predicción de supervivencia basada únicamente en la estadificación de metástasis en ganglios tumorales (TNM) es imperfecta debido a la heterogeneidad del tumor, así como a una evaluación inexacta de la diseminación del tumor. En pacientes en estadio II/III, la evaluación de riesgos tiene implicaciones cruciales en el uso de quimioterapia adyuvante, así como en la intensidad y duración del tratamiento2,3. Por lo tanto, son necesarios análisis multivariables a gran escala de los factores que contribuyen a la progresión del tumor para predecir mejor los resultados de los pacientes individuales. La evidencia acumulada indica que factores como el estado de inestabilidad de los microsatélites tumorales (MSI), la mutación BRAF, la cantidad de Fusobacterium nucleatum y los infiltrados de células T son biomarcadores pronósticos relevantes en el cáncer colorrectal4,5,6. Teniendo en cuenta estos hallazgos, planteamos la hipótesis de que la integración de las características inmunes y tumorales con la clasificación TNM podría mejorar un modelo de predicción de pronóstico en el cáncer colorrectal.

Para utilizar las variables clínico-patológicas disponibles en la predicción de la supervivencia, implementamos un modelo de clasificación de suma de árboles conjunto, árboles de regresión aditiva bayesiana (BART). Los métodos de conjunto permiten el modelado flexible de relaciones no lineales e interactivas entre predictores y variables de resultado, manteniendo al mismo tiempo la interpretabilidad del modelo a través de medidas de importancia variable7, y han arrojado resultados prometedores en la clasificación de subtipos moleculares de tumores, respuesta al tratamiento y predicción de supervivencia en múltiples tipos de cáncer8,9,10. BART amplía el paradigma clásico del árbol de conjuntos al introducir una distribución probabilística subyacente en un modelo de suma de árboles, lo que permite una regularización inherente. BART ha demostrado un rendimiento favorable y capacidades superiores de selección de variables en comparación con otros métodos de aprendizaje automático, incluido el bosque aleatorio (RF), el aumento de gradiente (GB), el operador de selección y contracción mínima absoluta (LASSO), la spline de regresión adaptativa multivariada y las redes neuronales artificiales. (ANN)11, y ha arrojado resultados prometedores en estudios anteriores sobre perfiles proteómicos, análisis de redes reguladoras de genes y análisis de supervivencia no paramétricos12,13,14.

En este estudio, construimos un modelo BART que incorporó componentes del estadio TNM con otros factores para mejorar la estratificación del riesgo de mortalidad en pacientes en estadio II/III, utilizando una base de datos de pacientes con cáncer colorrectal en dos grandes estudios de cohortes prospectivos, a saber, el Estudio de Salud de Enfermeras (NHS). ) y el Estudio de Seguimiento de Profesionales de la Salud (HPFS). Confirmamos un buen rendimiento del modelo BART, indicado por la curva de características operativas del receptor (ROC) en comparación con RF, GB y otros métodos de aprendizaje estadístico, y validado externamente mediante el uso del conjunto de datos The Tumor Genome Atlas (TCGA). Examinamos las variables que contribuyen a los modelos BART en términos de estabilidad de significancia mediante prueba de permutación a través de validación cruzada quíntuple, así como la dependencia parcial del resultado en variables importantes. Nuestro estudio ha demostrado que los modelos de conjunto bayesiano pueden integrar una variedad de factores específicos del paciente y del tumor para mejorar la predicción de la supervivencia y pueden servir como herramientas clínicas para evaluar el riesgo individual de mortalidad por cáncer, agregando así precisión al manejo óptimo del paciente.

Para construir un modelo de árboles de regresión aditiva bayesiana (BART) para la predicción del riesgo de mortalidad, incluimos 815 pacientes con adenocarcinoma colorrectal en estadio II-III derivado de una base de datos en el Estudio de salud de enfermeras (NHS) y el Estudio de seguimiento de profesionales de la salud (HPFS). ) (Figura 1). La tabla 1 resume las características de los pacientes. Una prueba de estabilidad del modelo BART mediante la cantidad de árboles establecidos a través de una validación cruzada de cinco veces demostró que BART alcanzó la estabilidad de rendimiento antes de 500 árboles (Fig. 2a). Por lo tanto, se estableció 500 como el número predeterminado de árboles para el resto del estudio para garantizar la estabilidad y coherencia entre los modelos.

La validación externa del modelo BART se realizó utilizando 106 de 371 pacientes en estadio II-III en el conjunto de datos TCGA, ya que faltaba información de supervivencia general a 5 años en 265 pacientes. Se realizaron análisis de supervivencia general utilizando los 371 pacientes con probabilidades previstas de estado de supervivencia a 5 años en función de las covariables. Impulso adaptativo AdaBoost, red neuronal artificial ANN, árboles de regresión aditiva bayesiana BART, adenocarcinoma colorrectal COADREAD, validación cruzada de CV, refuerzo de gradiente GB, estudio de seguimiento de profesionales de la salud HPFS, operador de selección y contracción mínima absoluta LASSO, estudio de salud de enfermeras del NHS, Bosque aleatorio de RF, características operativas del receptor ROC, máquina de vectores de soporte SVM, TCGA The Cancer Genome Atlas.

a Rendimiento del modelo en términos de estadísticas C de las características operativas del receptor (ROC) para modelos de supervivencia de 5 años en etapa II-III con validación cruzada quíntuple, con un número variable de parámetros de árboles. b Modele el rendimiento en 100 ejecuciones aleatorias en términos de área bajo la curva ROC (AUC). Los puntos azules representan valores medios de AUC en las ejecuciones por tipo de modelo. Las barras grises representan las desviaciones estándar de los valores de AUC entre ejecuciones. c Selección de variables utilizando BART en el umbral de P = 0,05. La figura muestra el número de veces que las variables se consideraron significativas en diez ejecuciones aleatorias. Las variables que aparecieron en promedio al menos una vez por cada cinco validaciones cruzadas se utilizaron para el análisis posterior. Red neuronal artificial ANN, área AUC bajo la curva ROC, árboles de regresión aditiva bayesiana BART, reacción tipo Crohn CRO, aumento de gradiente GB, operador de selección y contracción mínima absoluta LASSO, ganglios linfáticos LN, inestabilidad de microsatélites MSI, reacción periglandular PEN, peritumoral PET reacción, bosque aleatorio de RF, características operativas del receptor ROC, desviación estándar SD, máquina de vectores de soporte SVM, linfocitos infiltrantes de tumores TIL.

Una comparación del modelo BART con otros algoritmos de aprendizaje automático que utilizan validación aleatoria múltiple en un conjunto de datos con imputación de valores faltantes arrojó a BART como un modelo competitivo en la mayoría de las 100 ejecuciones aleatorias. El rendimiento de BART estuvo entre los dos mejores de los ocho modelos probados en términos de AUC (área bajo la curva ROC) media en todas las ejecuciones [AUC media 0,681, desviación estándar (DE) 0,048], después de la regresión LASSO (AUC media 0,693, DE 0,047) (Fig. .2b). Entre los modelos de conjunto, BART demostró el mejor rendimiento, seguido del bosque aleatorio (AUC media 0,673, DE 0,054).

El modelo de predicción de supervivencia BART en estadio II-III reveló varias variables estadísticamente significativas mediante la prueba de permutación en el umbral del valor de P de 0,05, que se utilizó en este procedimiento de selección (Fig. 2c). De las 75 variables examinadas, 7 variables superaron el umbral de significancia en promedio al menos una vez dentro de una validación cruzada quíntuple en 10 ejecuciones aleatorias (es decir, ≥10 de 50 ejecuciones). Los observados con mayor frecuencia fueron, en orden descendente, el recuento de ganglios linfáticos positivos, el recuento de ganglios linfáticos negativos, la profundidad de la invasión tumoral (estadio pT), el estado de MSI, el sitio del tumor, el grado de necrosis extraglandular y la edad.

El modelo BART que utiliza estas siete variables significativas y estables logró AUC de 0,67 a 0,83 (mediana 0,74) en cinco veces de validación cruzada (Fig. 3a). La mayoría de los pliegues (3/5) demostraron bondad de ajuste mediante la prueba de Hosmer-Lemeshow. Los gráficos de dependencia parcial de estas variables mostraron que el recuento negativo de ganglios linfáticos y el estado de MSI se asociaron positivamente con la supervivencia específica del cáncer colorrectal a 5 años, mientras que el recuento positivo de ganglios linfáticos, el estadio pT, la edad, la necrosis extraglandular y el sitio más proximal del tumor (distancia estimada). desde el borde anal) se asociaron negativamente con la supervivencia (Fig. 3b, c).

El modelo de predicción BART se construyó sobre la base de siete variables significativas y estables, a saber, recuentos de ganglios linfáticos positivos y negativos, profundidad de la invasión tumoral, estado de inestabilidad de microsatélites (MSI), sitio del tumor, necrosis extraglandular y edad. a Curvas ROC y valores de P de Hosmer-Lemeshow en cinco pliegues de validación cruzada (CV). b Importancia promedio de la variable en cinco pliegues de validación cruzada, mostrada en orden de importancia promedio más alta. Las barras negras representan variables con tendencia positiva con supervivencia y las barras blancas representan variables con tendencia negativa con supervivencia. c Gráficos de dependencia parcial de variables significativas en los pliegues de validación cruzada. Cada bloque transparente representa el intervalo de credibilidad del 95% de un pliegue de validación cruzada basado en 1000 muestras posteriores. Los efectos parciales se representan en términos de probabilidad de supervivencia en la escala Probit. Las líneas y puntos más oscuros representan el valor esperado de dependencia parcial para cada variable en 1000 muestras posteriores. Las marcas verticales verdes en el eje X indican los puntos de datos observados utilizados para generar el modelo. Área AUC bajo la curva ROC, árboles de regresión aditiva bayesiana BART, validación cruzada de CV, HL Hosmer-Lemeshow, ganglios linfáticos LN, inestabilidad de microsatélites MSI, estabilidad de microsatélites MSS, características operativas del receptor ROC.

El modelo BART que utiliza el estadio general, el estadio pT o el estadio pN solo como predictor logró una AUC mediana de 0,47 a 0,62 en cinco veces la validación cruzada, consistentemente menor que la AUC mediana de 0,74 del modelo BART utilizando siete variables significativas (Tabla complementaria 2).

Utilizando el análisis de exclusión de uno de BART, como se detalla en Métodos, los pacientes con cáncer colorrectal en estadio II-III se separaron en tres cuantiles de riesgo según las probabilidades previstas de supervivencia a 5 años (riesgo bajo si ≥0,884, riesgo intermedio si ≥0,758 y < 0,884, alto riesgo si <0,758). El análisis de supervivencia utilizando el modelo de regresión de riesgos proporcionales de Cox demostró diferencias significativas en la supervivencia entre las categorías del tercil de riesgo, es decir, riesgo bajo versus riesgo alto [cociente de riesgo (HR) 0,19, intervalo de confianza (IC) del 95 % 0,13–0,29, valor de P < 0,0001], riesgo bajo versus riesgo intermedio (HR 0,43, IC 95 % 0,28–0,65, valor de P < 0,0001), y riesgo intermedio versus riesgo alto (HR 0,45, IC 95 % 0,34–0,61, valor de P < 0,0001), con rango logarítmico general valor de P de prueba de <0,0001 (Fig. 4a). Los grupos de riesgo siguieron siendo significativos en un modelo multivariado de riesgos proporcionales de Cox que se ajusta por etapa (valor de P <0,0001, Tabla 2), así como en un modelo multivariado de riesgos proporcionales de Cox que se ajusta a todos los predictores independientes incluidos en el modelo (valor de P 0,0008, Tabla 3).

Supervivencia de un conjunto de datos de NHS/HPFS basada en cuantiles de riesgo. b Supervivencia del conjunto de datos de validación externa de TCGA basada en cuantiles de riesgo. Las tablas muestran los modelos de riesgos proporcionales de Cox utilizando cuantiles de riesgo y valores de P generales mediante prueba de rangos logarítmicos. Árboles de regresión aditiva bayesiana BART, intervalo de confianza de IC, índice de riesgo de recursos humanos.

Los análisis exploratorios que utilizaron estratificación por cuantiles de riesgo y estadio demostraron una FC decreciente en comparación con el estadio III de alto riesgo (referencia) en el siguiente orden: estadio II de alto riesgo (valor de P 0,26), estadio III de riesgo intermedio, estadio II de riesgo intermedio , estadio III de bajo riesgo y estadio II de bajo riesgo (valores de p <0,0001) (Figura complementaria 1). Los análisis por estadio específico demostraron que las diferencias en el riesgo de mortalidad fueron significativas para riesgo bajo versus alto riesgo y riesgo bajo versus riesgo intermedio en pacientes en estadio II y para riesgo bajo versus riesgo alto y riesgo intermedio versus riesgo alto en pacientes en estadio III (valores de P <0,005) , y sugestivo de riesgo intermedio versus riesgo alto en pacientes en estadio II (valores de P entre 0,005 y 0,05) (Fig. 5).

Se muestran gráficos de supervivencia para pacientes con cáncer colorrectal en estadio II (izquierda) y estadio III (derecha), según los cuantiles de riesgo derivados de las probabilidades previstas generadas por el modelo de riesgo BART. La tabla muestra el modelo de riesgos proporcionales de Cox utilizando cuantiles de riesgo y valor P general mediante prueba de rango logarítmico. Árboles de regresión aditiva bayesiana BART, intervalo de confianza de IC, índice de riesgo de recursos humanos.

Una validación externa con datos de TCGA mostró que el modelo de predicción de riesgo BART logró un AUC de 0,68 basado en 106 de 371 pacientes en estadio II-III con información de supervivencia general a 5 años (es decir, pacientes que murieron dentro de los 5 años o que sobrevivieron durante al menos 5 años). años) (Figura complementaria 2). Se utilizó la supervivencia general a cinco años como criterio de valoración sustituto y la censura se estableció en 5 años (ver "Métodos") ya que no se disponía de información sobre la supervivencia específica del cáncer colorrectal. El conjunto completo de datos TCGA de 371 pacientes con cáncer colorrectal en estadio II-III se separó en tres cuantiles de riesgo según las probabilidades previstas del estado de supervivencia a 5 años (riesgo bajo si ≥0,662, riesgo intermedio si ≥0,517 y <0,662, riesgo alto si <0,517). ) e incorporado a un modelo de riesgos proporcionales de Cox. El modelo arrojó una diferencia significativa entre los cuantiles de riesgo bajo y alto (HR 0,26; IC del 95 %: 0,12 a 0,53; valor de p 0,0002) y evidencia sugestiva de la diferencia entre los cuantiles de riesgo bajo y intermedio (HR 0,42, 95). % IC 0,20–0,89, valor de P 0,02), con un valor de P de prueba de rango logarítmico de 0,0004 en todos los cuantiles (Fig. 4b). Los grupos de riesgo siguieron siendo significativos al nivel de evidencia sugestiva en un modelo multivariado de riesgos proporcionales de Cox que se ajusta por etapa (valor de P 0,005, Tabla 2), así como en un modelo multivariado de riesgos proporcionales de Cox que se ajusta a todos los predictores independientes incluidos en el modelo (valor de P 0,03, Tabla 3).

Un análisis separado basado únicamente en datos del estadio II o del estadio III demostró que la supervivencia general a 5 años difería sugestivamente entre los grupos de bajo y alto riesgo en pacientes en estadio III (valor de p 0,008); sin embargo, no demostraron ningún nivel de significación para los pacientes en estadio II (Fig. 6).

Se muestran gráficos de supervivencia para pacientes con cáncer colorrectal en estadio II (izquierda) y estadio III (derecha) en el conjunto de datos TCGA, según los cuantiles de riesgo derivados de las probabilidades previstas generadas por el modelo de riesgo BART. La tabla muestra el modelo de riesgos proporcionales de Cox utilizando cuantiles de riesgo y valor P general mediante prueba de rango logarítmico. Árboles de regresión aditiva bayesiana BART, intervalo de confianza de IC, índice de riesgo de recursos humanos.

En la figura complementaria 3 se muestra una interfaz de calculadora de predicción de riesgos, que toma como entrada las siete variables significativas y estables, permite valores faltantes y genera la probabilidad de supervivencia y el grupo de riesgo (riesgo bajo, riesgo intermedio o riesgo alto) para cada uno. paciente en cuestión. Una versión experimental del modelo de predicción de riesgos de BART está disponible para descargar en https://github.com/mm-zhao/BART.

En este estudio multivariable sobre la predicción de la supervivencia del cáncer colorrectal, BART demostró un rendimiento del modelo comparable en múltiples ejecuciones aleatorias en comparación con otros modelos de aprendizaje no lineal y regresión lineal LASSO. Dentro de los modelos BART, los predictores más estables para la supervivencia específica del cáncer colorrectal a 5 años en estadio II-III fueron el recuento de ganglios linfáticos positivos, el recuento de ganglios negativos, la profundidad del tumor de invasión, el estado de MSI, el sitio del tumor, la edad y la extensión de la necrosis extraglandular. . Todas las variables pueden estar disponibles en la evaluación clínica de rutina del cáncer colorrectal si un patólogo (o un algoritmo de inteligencia artificial/análisis de imágenes digitales) puede registrar el grado de necrosis extraglandular, que es la que menos contribuye entre las siete variables. Se construyó un modelo de predicción de riesgo basado en estas variables para clasificar a los pacientes en grupos de riesgo bajo, intermedio y alto.

Los rápidos avances en la investigación del cáncer colorrectal han impulsado la inclusión de factores moleculares, como el estado de MSI y las mutaciones en KRAS y BRAF, como características importantes para guiar el tratamiento del cáncer en pacientes en estadio II-IV en la edición más reciente del AJCC (American Joint Committee). sobre el Cáncer) Manual de estadificación del cáncer15. Si bien la estadificación del cáncer colorrectal actualmente se basa enteramente en características anatómicas, los esquemas de clasificación alternativos, como el Immunoscore, han demostrado una buena utilidad para clasificar el pronóstico de los pacientes basándose en cuantiles de densidad de células T16. Dentro del cáncer colorrectal en estadio II y III, donde la clasificación tiene fuertes implicaciones en las estrategias de tratamiento, la estadificación es una cuestión fundamental pero desafiante. Por lo tanto, la adición de factores pronósticos más allá de la diseminación anatómica del tumor en un modelo de riesgo estandarizado puede ayudar a refinar el diagnóstico y ofrecer información adicional de supervivencia específica del paciente para el manejo clínico.

Las aplicaciones de algoritmos de aprendizaje estadístico en la clasificación del cáncer y la predicción del pronóstico han ganado fuerza en la última década debido a su capacidad para modelar relaciones complejas en un contexto de alta dimensión. En los últimos años, los algoritmos basados ​​en RNA han ganado impulso en la investigación del cáncer, particularmente en estudios basados ​​en imágenes, según un estudio bibliográfico realizado por Kourou et al.17. En comparación con los modelos basados ​​en ANN, la clasificación de conjuntos y los árboles de regresión, aunque son menos frecuentes en la literatura sobre el cáncer, tienen ventajas particulares como modelos de aprendizaje flexibles que requieren pocos parámetros de ajuste y permiten interpretaciones de modelos de nivel variable. Estos algoritmos han demostrado un rendimiento superior en el manejo de conjuntos de datos heterogéneos en comparación con los métodos de aprendizaje profundo17, con un rendimiento general mejor en una revisión sistemática de los modelos de aprendizaje18. Probamos el rendimiento de BART frente a una variedad de modelos de aprendizaje en nuestro conjunto de datos de estudio. Descubrimos que los métodos de conjunto eran más favorables en el rendimiento de ROC en comparación con SVM y ANN con una sola capa oculta, y que BART era el método de conjunto preferible en 100 ejecuciones aleatorias. La regresión lineal LASSO tuvo un rendimiento marginalmente mejor que BART en todas las ejecuciones de nuestro conjunto de datos; sin embargo, BART es en general un modelo más flexible y adaptable en comparación, ya que los modelos LASSO requieren la adición manual a priori de interacciones y carecen de la capacidad de modelar relaciones no lineales o manejar valores faltantes.

Los métodos de conjunto mantienen la interpretabilidad del modelo a través de medidas de importancia variable y dependencia parcial. Una extensión de las medidas de importancia de variables utilizando la prueba de permutación, una forma de la cual se utilizó en este estudio, ha demostrado una reducción del sesgo de selección de variables y solidez en los análisis de conjuntos de datos de alta dimensión19. Descubrimos que BART se puede utilizar para identificar variables influyentes para las predicciones de la clasificación del estadio del cáncer colorrectal y la supervivencia específica del cáncer colorrectal de manera sólida. Se sabe que muchas de las variables elegidas son factores pronósticos importantes en la literatura, lo que demuestra que BART puede seleccionar de manera confiable variables significativas para la predicción de la supervivencia. A partir de un conjunto de 75 características candidatas, incluidos factores clínicos, epidemiológicos, inmunológicos, microbianos y moleculares tumorales, el modelo BART aisló de manera sólida un subconjunto de variables contribuyentes a través de cinco validaciones cruzadas y ejecuciones aleatorias. Utilizando un muestreo posterior basado en el modelo probabilístico bayesiano de BART, pudimos estimar intervalos creíbles de influencia de las variables individuales en el resultado, como se ilustra a través de gráficos de dependencia parcial. Por lo tanto, podríamos capturar tanto la tendencia de la influencia de la variable como el nivel de certeza asociado con la influencia dentro de los modelos.

Nuestros análisis mostraron que el grupo de riesgo intermedio fue estadísticamente significativo en la supervivencia en comparación con los grupos de riesgo bajo y alto en el conjunto de datos primario. Sin embargo, esta importancia no se refleja de manera tan sólida en la validación externa con datos de TCGA, particularmente dentro de los análisis de subetapas. La validación externa y los análisis de subetapas pueden carecer de suficiente potencia, aunque la tendencia es sugestiva y consistente con los datos primarios. La categoría de riesgo intermedio puede justificar un nivel de tratamiento clínico más agresivo que los de la categoría de riesgo bajo, aunque esto aún debe estudiarse más en términos de las implicaciones del tratamiento en el entorno clínico.

Los gráficos de dependencia parcial de variables importantes en los modelos BART demostraron relaciones entre las variables predictivas y los resultados consistentes con los reportados previamente en la literatura, incluido el estado de MSI y el recuento negativo de ganglios linfáticos como pronósticos favorables y la necrosis extraglandular como pronóstico desfavorable en el cáncer colorrectal20,21. 22. Además, los gráficos de dependencia parcial resaltan la naturaleza no lineal de las relaciones entre varias variables y la supervivencia, como una peor supervivencia para los tumores que surgen del colon ascendente en comparación con otros sitios.

Dentro del estadio II, donde los factores de alto riesgo y la estadificación influyen fuertemente en la decisión clínica de quimioterapia23, nuestros resultados confirman que variables distintas a las utilizadas tradicionalmente en la estadificación TNM se pueden utilizar en el entorno clínico para ayudar a predecir y refinar el pronóstico. Varias directrices emitidas por la Red Nacional Integral del Cáncer (NCCN) sugieren que los tumores en estadio II con características de alto riesgo, como invasión linfovascular, invasión perineural, menos de 12 ganglios linfáticos examinados, márgenes quirúrgicos positivos y diferenciación tumoral deficiente, podrían beneficiarse de quimioterapia adyuvante24. Sin embargo, actualmente no existe ningún estándar clínico para la identificación del cáncer colorrectal en etapa II de alto riesgo, un problema agravado por la multitud de variables y sus interrelaciones que pueden influir en la supervivencia en el cáncer colorrectal. Un estudio de Babcock et al. observaron que no todas las características de alto riesgo tienen los mismos efectos adversos sobre la supervivencia del cáncer colorrectal, y los tumores pT4 en combinación con otras características de alto riesgo denotan el mayor beneficio de supervivencia de la quimioterapia adyuvante25. A través de proporciones de inclusión variables y gráficos de dependencia parcial en los modelos BART, encontramos que las características seleccionadas tienen grados variables de impacto en la supervivencia del paciente. Por ejemplo, variables como el recuento de ganglios linfáticos positivos, el recuento de ganglios negativos y la profundidad de la invasión del tumor tienen influencias más estables y sólidas en la supervivencia que el sitio del tumor. No obstante, es evidente que se necesita un conjunto de datos más amplio para evaluar mejor el papel pronóstico de la ubicación detallada del tumor y el efecto modificador de las características patológicas del tumor26, lo que puede contribuir aún más a una estratificación pronóstica de los pacientes en el futuro. Por lo tanto, se puede utilizar un modelo predictivo con ponderación intrínseca de variables clave para ayudar a estandarizar la evaluación de riesgos, funcionando como una calculadora de riesgos para guiar las decisiones clínicas, similar a otros modelos establecidos para la predicción de riesgos en el cáncer colorrectal27,28. Queda por determinar cómo se pueden incorporar diversas modalidades de tratamiento en modelos sólidos de predicción del riesgo de mortalidad.

En los últimos años, el uso de modelos de aprendizaje estadístico para estratificar datos a nivel de diapositiva de patología basados ​​en el riesgo del paciente a través de métodos de aprendizaje profundo o la agregación de múltiples factores influyentes ha demostrado éxito en la predicción del pronóstico con un nivel de precisión más allá de lo que antes se podía lograr usando una sola clave. variables, como la profundidad del tumor, el estado de MSI y la puntuación de los linfocitos infiltrantes del tumor. Por ejemplo, se construyó una puntuación inmunológica basada en inteligencia artificial (IA) a partir de un modelo de aprendizaje profundo que utiliza hematoxilina y eosina (H&E) y tinciones inmunohistoquímicas de subtipos inmunes de pacientes con todas las etapas de cáncer colorrectal, y se encontró en un modelo multivariado de riesgos proporcionales de Cox. estratificar significativamente a los pacientes en grupos de pronóstico29. Otros métodos, como el uso de bosques aleatorios o modelos lineales generalizados para agregar múltiples variables clínicas y expresión genética en el cáncer colorrectal, demostraron un AUC de alrededor de 0,7 a 0,8 para predecir la supervivencia30. Si bien muchos modelos existentes agregan pacientes de todos los estadios, incluidos los tumores locales (estadio I) y los tumores metastásicos (estadio IV), nuestro modelo de riesgo BART se concentra en la población de pacientes con cáncer colorrectal en estadio II/III para proporcionar un riesgo significativo y ajustado. estratificación para pacientes donde el tratamiento con quimioterapia adyuvante actualmente depende en gran medida de la presencia de metástasis en los ganglios linfáticos, que está sujeto a errores de muestreo, y la intensidad y duración del tratamiento depende de la evaluación del riesgo, que actualmente carece de estandarización3. Al centrarnos en este grupo de pacientes, nuestro objetivo era crear un modelo que tuviera una utilidad clínica clara e inmediata en el panorama actual del tratamiento del cáncer colorrectal. Además, el uso exclusivo de información basada en diapositivas utilizando modelos de aprendizaje profundo o un conjunto de modelos de aprendizaje profundo ha demostrado la capacidad de distinguir grupos de alto y bajo riesgo en pacientes con cáncer colorrectal en estadio II/III31,32. Los desarrollos futuros, incluida la incorporación de métodos de aprendizaje profundo para aprender características específicas basadas en diapositivas en lugar de la clasificación manual de las características de las diapositivas, como el grado de necrosis extraglandular, ayudarían a preservar la interpretabilidad del modelo y al mismo tiempo aumentarían aún más la eficiencia y la coherencia, y por tanto la utilidad, de la versión actual del modelo de riesgo descrito en este estudio.

La validación externa utilizando el conjunto de datos The Cancer Genome Atlas (TCGA) demostró que nuestro modelo de riesgo bayesiano puede generalizarse a otros conjuntos de datos con utilidad conservada y la capacidad de separar a los pacientes en grupos de riesgo estadísticamente significativos. Sin embargo, dado que falta información sobre la supervivencia específica del cáncer colorrectal y tiempos de seguimiento más cortos, el conjunto de datos TCGA no se pudo utilizar de manera óptima en este momento como conjunto de validación. Otro conjunto de datos existente, el programa de Vigilancia, Epidemiología y Resultados Finales (SEER), carece de información detallada sobre las características del tumor. Los esfuerzos en curso en la recopilación de datos y la incorporación de más variables clínicas, epidemiológicas y moleculares en los registros de cáncer pueden ayudar a proporcionar datos de validación valiosos en estudios futuros.

Otras limitaciones de este estudio incluyen que, aunque nuestro estudio intentó incorporar varias características de alto riesgo pertinentes y establecidas para el estadio II, como la invasión linfovascular y la invasión perineural, el grado de omisión y la incertidumbre de medición en la recopilación de estos datos podrían haber impactado su influencia mensurable dentro de nuestros modelos. Cuando haya más datos disponibles, sería de gran interés examinar estas variables junto con las características que se consideran importantes en este estudio. De manera similar, como hemos aplicado mediciones de densidad inmune y secuenciación del exoma completo (WES) a un subconjunto de cánceres colorrectales en nuestros conjuntos de datos de cohortes, puede ser interesante incorporar perfiles inmunes y mutacionales más completos como predictores en modelos futuros. Aunque los modelos BART de este estudio se centran en la supervivencia específica del cáncer colorrectal para reducir el posible ruido y los factores de confusión asociados con las mediciones de la supervivencia general, otras modificaciones y consideraciones pueden resultar útiles. Por ejemplo, como la información sobre el tratamiento no estaba disponible para este estudio, no teníamos medios para determinar la relación entre los tratamientos recibidos según la estadificación y la supervivencia. Por lo tanto, no pudimos determinar si la supervivencia dentro del estadio II podría haberse visto afectada por la adición de terapia adyuvante. Si bien el alcance de la necrosis extraglandular se evaluó utilizando portaobjetos TCGA H&E, la evaluación histopatológica de cada caso generalmente se limitó a un portaobjetos, a menudo con pequeñas cantidades de tejido. Por tanto, la variabilidad del muestreo podría limitar la representación del grado de necrosis. Los estudios que utilizan conjuntos de datos multidimensionales que incluyen la evaluación de la información sobre el tratamiento ayudarían a dilucidar la relación entre el tratamiento y la supervivencia en el contexto de la clasificación del riesgo dentro del cáncer colorrectal en estadio II.

Hay fortalezas notables en nuestro estudio. En primer lugar, nuestra base de datos de investigación de epidemiología patológica molecular de pacientes con cáncer colorrectal incluye muchos pronósticos posibles, lo que permite evaluaciones y comparaciones multivariables integrales33,34. En segundo lugar, nuestra población de pacientes representa casos de cáncer colorrectal que se produjeron en estudios de cohortes prospectivos bien establecidos en todo Estados Unidos. En consecuencia, nuestros sujetos incluyeron pacientes que se sometieron a resección y tratamiento del cáncer en diversas regiones y tipos de hospitales con poca evidencia de sesgo de selección35, lo que aumenta la generalización de los hallazgos. Además, realizamos evaluaciones integrales y rigurosas de los modelos probados en términos de rendimiento de predicción e interpretabilidad. A través de este estudio, hemos ilustrado la capacidad de los modelos BART, empleando marcos bayesianos dentro de una arquitectura de suma de árboles en conjunto, para proporcionar información sobre el grado de certeza y detectar de manera confiable las variables prominentes que contribuyen a la supervivencia a partir de una lista completa de posibles variables.

En conclusión, los modelos de aprendizaje estadístico que integran simultáneamente múltiples variables teniendo en cuenta la no linealidad han demostrado un buen rendimiento en la predicción de la supervivencia específica del cáncer colorrectal. Los métodos de conjunto como BART permiten la flexibilidad del modelo junto con la interpretabilidad para identificar variables que contribuyen a la supervivencia del paciente. Los estudios centrados en las variables identificadas pueden ayudar a dilucidar los mecanismos de progresión de la enfermedad, y la incorporación de estas variables dentro o junto al sistema de estadificación existente puede dar como resultado una estratificación pronóstica más precisa para guiar el tratamiento de los pacientes con cáncer colorrectal.

El estudio se llevó a cabo utilizando dos estudios de cohortes prospectivos en curso en los EE. UU., el Estudio de salud de enfermeras (NHS), que se inició en 1976 e inscribió a 121.701 enfermeras registradas de entre 30 y 55 años al inicio del estudio, y el Estudio de seguimiento de profesionales de la salud. (HPFS), que se inició en 1986 e inscribió a 51.529 profesionales de la salud masculinos de entre 40 y 75 años al inicio del estudio36. Para ambas cohortes, se enviaron cuestionarios cada dos años para evaluar información demográfica, de estilo de vida, médica y otra información de salud pertinente. Se recopilaron datos detallados sobre la dieta cada 4 años mediante cuestionarios semicuantitativos de frecuencia alimentaria. La tasa de respuesta ha sido superior al 90% para cada ciclo de cuestionario de seguimiento en ambos estudios de cohorte. Se pidió a los participantes que proporcionaran información sobre factores de dieta y estilo de vida, como altura, peso, tabaquismo, uso de aspirina y otros medicamentos antiinflamatorios no esteroides, consumo de alcohol y consumo de carnes rojas. En ambos estudios, se utilizó el Índice Nacional de Muerte para determinar las muertes de los participantes del estudio e identificar casos letales de cáncer colorrectal no informados.

Basado en el modelo continuo colorrectal37, se incluyeron en este estudio participantes que desarrollaron adenocarcinomas de colon o recto durante los períodos de estudio. Se obtuvo el consentimiento informado por escrito de todos los participantes del estudio. Los médicos participantes, que estaban cegados a los datos de exposición, revisaron los registros médicos de los casos de cáncer colorrectal identificados para confirmar el diagnóstico de la enfermedad (es decir, adenocarcinoma colorrectal) y recopilar datos sobre las características clínico-patológicas, incluido el tamaño del tumor, la ubicación anatómica del tumor, el estadio TNM del AJCC, los números. de ganglios linfáticos positivos y negativos para metástasis tumorales y causa de muerte (en pacientes fallecidos). La información del sitio del tumor (el ciego, el colon ascendente, el ángulo hepático, el colon transverso, el ángulo esplénico, el colon descendente, el colon sigmoide, la unión rectosigmoidea y el recto) se tradujo a la distancia promedio desde el borde anal según los datos publicados sobre colonografía por tomografía computarizada38,39 . Se pudo obtener tejido tumoral de archivo fijado en formalina e incluido en parafina (FFPE) de 1620 participantes diagnosticados con adenocarcinoma colorrectal en instituciones donde se realizaron resecciones tumorales. Incluimos 815 pacientes con cáncer colorrectal en estadio II y III en nuestro análisis actual (Fig. 1). Se obtuvo el consentimiento informado por escrito de todos los sujetos del estudio. El protocolo del estudio fue aprobado por las juntas de revisión institucional del Brigham and Women's Hospital y la Escuela de Salud Pública TH Chan de Harvard (Boston, MA, EE. UU.), y las de los registros participantes según fuera necesario.

Un solo patólogo (SO), cegado a otros datos, realizó una revisión patológica exhaustiva de secciones de tejido teñidas con hematoxilina y eosina de todos los casos de carcinoma colorrectal y registró las características histopatológicas, incluida la diferenciación tumoral, los patrones y grados de reacciones linfocíticas, la invasión linfovascular, invasión perineural y la extensión en porcentajes (de 0 a 100%) del componente de células en anillo de sello, mucina extracelular y área necrótica extraglandular. Todas estas características se registraron por separado40. Las proporciones se categorizaron aún más en función de cuantiles para el porcentaje de células en anillo de sello y contenedores ordinales (incrementos del 10%) para el porcentaje mucinoso (hasta el 100%, 11 categorías) y el área necrótica extraglandular (hasta el 40%, 6 categorías). La diferenciación tumoral también se clasificó en moderada (>50% del área glandular) o pobre (≤50% del área glandular). Se registraron cuatro componentes de la reacción linfocítica histopatológica al tumor, los linfocitos infiltrantes de tumores (TIL), la reacción periglandular intratumoral, la reacción linfocítica peritumoral y la reacción linfoide similar a la de Crohn, como se describió anteriormente41. Brevemente, TIL se definió como linfocitos encima de las células tumorales, la reacción periglandular intratumoral se definió como una reacción linfoide en el estroma tumoral dentro de la masa tumoral, la reacción linfocítica peritumoral se definió como reacciones linfoides discretas que rodean al tumor y la reacción similar a la de Crohn se definió como reacción linfoide transmural. reacción. Cada uno de los cuatro componentes de la reacción linfocítica se calificó de 0 a 3 (ausente/mínimo, leve, moderado y fuerte), y la puntuación general de la reacción linfocítica (0 a 12) fue la suma de las puntuaciones de los cuatro componentes de reacción anteriores.

El ADN genómico se extrajo de secciones de tejido FFPE de archivo de carcinoma colorrectal y tejido normal utilizando el kit de tejido QIAamp DNA FFPE (Qiagen, Hilden, Alemania). El estado de MSI del tumor se analizó mediante la reacción en cadena de la polimerasa (PCR) de 10 marcadores microsatélites (D2S123, D5S346, D17S250, BAT25, BAT26, BAT40, D18S55, D18S56, D18S67 y D18S487), y MSI alto se definió como la presencia de inestabilidad en ≥30% de los marcadores37. Los estados de metilación de ocho promotores específicos del fenotipo metilador de la isla CpG (CIMP) (CACNA1G, CDKN2A, CRABP1, IGF2, MLH1, NEUROG1, RUNX3 y SOCS1) y el elemento 1 de nucleótidos intercalados largos (LINE-1) se determinaron utilizando bisulfito. ADN tratado37. CIMP alto se definió como ≥ 5 promotores metilados de ocho promotores, y CIMP bajo/negativo como 0 a 4 promotores metilados. Se realizaron PCR y pirosecuenciación para KRAS (codones 12, 13, 61 y 146), BRAF (codón 600) y PIK3CA (exones 9 y 20)42. Los cebadores de PCR fueron 5′-NNNGGCCTGCTGAAAATGACTGAA-3' (para cebador directo) y 5′-[Bio TEG]TTAGCTGTATCGTCAAGGCACTCT-3' (para cebador inverso) para amplificar los codones 12 y 13 de KRAS, 5′-biotina-TGGAGAAACCTGTCTCTTGGATAT-3' (para cebador directo) y 5′-TACTGGTCCCTCATTGCACTGTA-3′ (para cebador inverso) para amplificar el codón 61 de KRAS, 5′-ATGGAATTCCTTTTATTGAAACATC-3′ (para cebador directo) y 5′-biotina-TTGCAGAAAAACAGATCTGTATTTAT-3′ (para cebador inverso ) para el codón 146 de KRAS, 5′-CAGTAAAAATAGGTGATTTTG-3′ (para cebador directo) y 5′-biotina-CAACTGTTCAAACTGATGGG-3′ (para cebador inverso) para el codón 600 de BRAF, 5′-biotina-AACAGCTCAAAGCAATTTCTACAC-3′ (para cebador directo cebador) y 5′-ACCTGTGACTCCATAGAAAATTCTT-3′ (para cebador inverso) para el exón 9 de PIK3CA, y 5′-biotina-CAAGAGGCTTTGGAGTATTTCA-3′ (para cebador directo) y 5′-CAATCCATTTTTGTTGTCCA-3′ (para cebador inverso) para PIK3CA exón 20. Los cebadores de secuenciación fueron 5′-TGTGGGTAGTTGGAGCTG-3' (PF1), 5′-TGTGGTAGTTGGAGCT-3' (PF2) y 5′-TGGTAGTGGAGCTGGT-3' (PF3) para los codones 12 y 13 de KRAS, 5′- TCATTGCACTGTACTCCTC-3′ para el codón 61 de KRAS, 5′-AATTCCTTTTATTGAAACATCA-3′ para el codón 146 de KRAS, 5′-TGATTTTGGTCTAGCTACA-3′ para el codón 600 de BRAF, 5′-CCATAGAAAATCTTTCTCCT-3′ (RS1), 5′-TTCTCCTT/GCTT /CAGTGATTT-3′ (RS2), 5′-TAGAAAATCTTTCTCCTGCT-3′ (RS3) para el exón 19 de PIK3CA y 5′-GTTGTCCAGCCACCA-3′ para el exón 20 de PIK3CA.

Además, para un subconjunto de 720 casos, se obtuvo el perfil mutacional del tumor a partir de la secuenciación del exoma completo (WES), como se describió anteriormente, para genes de interés (115 genes, Tabla complementaria 3) sin datos de pirosecuenciación43. Brevemente, se extrajo ADN de áreas tumorales de bloques FFPE tumorales junto con ADN normal emparejado de áreas libres de tumores o márgenes de resección y se sometió a captura híbrida con cebo SureSelect v.2 Exome (Agilent Technologies) y secuenciación con instrumentos Illumina HiSeq 2000. La frecuencia de las variantes de un solo nucleótido se estratificó según el estado de MSI y se consideraron para el análisis los genes con mutaciones significativas más allá del nivel mutacional de fondo. Los genes con menos del 5% de frecuencia de mutaciones no silenciosas en el conjunto de datos se excluyeron del análisis (consulte la Tabla complementaria 1 para obtener la lista completa de mutaciones incluidas en el análisis).

Realizamos un ensayo de PCR cuantitativo para medir la cantidad de ADN del género Fusobacterium nucleatum y Bifidobacterium en el tejido tumoral, como se describió anteriormente38,44. La cantidad de ADN de los géneros Fusobacterium nucleatum y Bifidobacterium en cada muestra de tumor se calculó como un valor relativo normalizado a los niveles del gen de referencia humano SLCO2A1 utilizando el método 2-ΔCt45. Los casos con cualquier ADN de Bifidobacterium detectable se clasificaron como bajo versus alto según la cantidad de punto de corte medio de Bifidobacterium, mientras que los casos sin Bifidobacterium detectable se clasificaron como negativos. Debido a una mayor proporción de ausencia de ADN de F. nucleatum en las muestras, F. nucleatum se clasificó como ausente o presente según la detección de ADN de F. nucleatum.

Construimos micromatrices de tejido que incluían hasta cuatro núcleos de cáncer colorrectal y hasta dos núcleos de bloques de tejido normal, como se detalla en la ref. 46. ​​Utilizamos el sistema de nomenclatura estandarizado para proteínas recomendado por el panel de expertos47.

Análisis inmunohistoquímicos de PTGS2 (HGNC:9605; ciclooxigenasa-2), CTNNB1 nuclear (HGNC:2514; beta-catenina), CD274 (HGNC:17635; PD-L1), PDCD1 (HGNC:8760; PD-1) y PDCD1LG2 (HGNC:18731; PD-L2) se realizaron utilizando un anticuerpo anti-PTGS2 (dilución 1:300; Cayman Chemical, Ann Arbor, MI, EE. UU.), anticuerpo anti-CTNNB1 (dilución 1:400; BD Transduction Laboratories, Franklin Lakes , Nueva Jersey, EE. UU.), anticuerpo anti-CD274 (dilución 1:50; eBioscience, San Diego, CA), anticuerpo anti-PDCD1 (dilución 1:1000; clon EH33) y anticuerpo anti-PDCD1LG2 (dilución 1:6000; clon 366C.9E5), respectivamente46,48,49,50. Los anticuerpos anti-PDCD1 y anti-PDCD1LG2 se generaron en el laboratorio de GJ Freeman en el Dana-Farber Cancer Institute51.

La inmunofluorescencia multiespectral, como se describió anteriormente, se realizó utilizando secciones desparafinadas de 4 µm de bloques de microarrays de tejido, y se tomaron muestras de núcleos de microarrays de tejido de diferentes áreas del tumor (es decir, centro y periferia)52. Se recogieron hasta cuatro núcleos de tumores de cada caso. Muchos núcleos también contienen bordes microscópicos invasivos (p. ej., gemación tumoral), y las características de esos bordes microscópicos invasivos eran similares a las de la periferia del tumor53. Anticuerpos primarios contra CD3 (dilución 1:75; clon F7.2.38; Dako; Agilent Technologies, Carpenteria, CA, EE. UU.), CD4 (dilución 1:50; clon 4B12; Dako), CD8 (dilución 1:150; clon C8/ 144B; Dako), isoforma CD45RO de los productos PTPRC (dilución 1:50; clon UCHL1; Dako), FOXP3 (dilución 1:100; clon 206D; Biolegend, San Diego, CA) y KRT (queratinas, pancitoqueratinas) (combinación de dilución 1:40; clon AE1/AE3; Dako y dilución 1:400; clon C11; señalización celular, Danvers, MA, EE. UU.) y DAPI (número de catálogo FP1490, Akoya Biosciences, Marlborough, MA, EE. UU.) Se detectaron utilizando un método de amplificación de señal de tiramida y tintes fluorescentes Opal (Akoya Biosciences). Se tomaron imágenes de los portaobjetos teñidos utilizando la plataforma de imágenes multiespectrales (Vectra 3.0, Akoya Biosciences) con un aumento de × 200. Las imágenes multiespectrales de cada núcleo se sometieron a una primera segmentación de tejido para caracterizar regiones del epitelio y estroma tumoral según la expresión de KRT, utilizando algoritmos supervisados ​​de aprendizaje automático dentro de Inform 2.4.1 (Akoya Biosciences). Después de la segmentación del tejido, se realizó la enumeración y segmentación de las células utilizando la señal DAPI para ayudar en la identificación de los núcleos. Cada célula se segmentó aún más en compartimentos nuclear, citoplasmático y membranoso. Se utilizó un algoritmo independiente de aprendizaje automático supervisado para identificar células T basándose en una combinación de citomorfología y patrones de expresión de marcadores de células T. Estos datos unicelulares se utilizaron luego para calcular las densidades de subpoblación de células T dentro de regiones separadas. Luego se determinaron las densidades agregadas a nivel de tumor calculando la densidad promedio (células/mm2) para cada subconjunto en todas las regiones de cada paciente.

BART, un modelo conjunto de suma de árboles bajo un paradigma bayesiano, es una extensión de los conceptos de aumento de gradiente, mediante el cual cada árbol \(g\left({x;}{T}_{j}{M}_{ j}\right)\) dentro de un conjunto representa una parte del resultado final previsto Y:

Bajo el paradigma bayesiano, primero se determina un conjunto de distribuciones previas para la estructura del árbol (T), los parámetros de la hoja dada la estructura del árbol (M | T) y la varianza del error (σ2), como se detalla en la ref. 11. Luego, las distribuciones anteriores se actualizan iterativamente dados los datos observados empleando la cadena de Markov Monte Carlo (MCMC), que genera extracciones de la distribución posterior \(P({T}_{1}^{M},\ldots ,{ T}_{m}^{M},{\sigma }^{2}|y)\).

Al establecer una prioridad uniforme en las variables predictivas, así como una prioridad que se centra en profundidades de árbol poco profundas de 2 a 3 niveles, el método BART impone la regularización con alumnos débiles en cada iteración. A través de cada iteración de MCMC utilizando el muestreo de Gibbs, el modelo BART crece, se reduce o mantiene la estructura de árbol eligiendo variables, puntos de división de variables y contribuciones terminales con respecto a una distribución de probabilidad basada en la minimización residual. Las muestras posteriores reflejan la verdadera distribución de probabilidad posterior subyacente. Luego se pueden realizar estadísticas resumidas adicionales para determinar los valores esperados y los intervalos creíbles de los parámetros de interés.

Utilizando datos de 815 participantes del estudio (Fig. 1), realizamos un entrenamiento aleatorio de 80 a 20 (n = 652) versus pruebas (n = 163) divididos para predecir la supervivencia a 5 años. En total, inicialmente se consideraron 75 variables como predictores en los modelos. La Tabla complementaria 1 muestra una lista completa de las variables predictivas utilizadas en este estudio.

El preprocesamiento se realizó en todas las variables continuas. Como las densidades de células T en el tumor estaban muy sesgadas, se transformaron utilizando la transformación de Yeo-Johnson para alcanzar la normalidad54. Luego se centraron y escalaron las variables continuas y las variables ordinales con más de dos niveles con una media de 0 y una desviación estándar de 1. Luego se utilizaron los algoritmos BART, regresión lineal LASSO, GB, RF, refuerzo adaptativo, máquina de vectores de soporte (SVM) y ANN. se realizó en los conjuntos de entrenamiento con parámetros dentro de una cuadrícula de ajuste predeterminada establecida por el paquete R caret ajustado mediante validación cruzada, y el rendimiento de predicción en los conjuntos de validación se midió mediante estadísticas de concordancia ROC (área bajo la curva ROC, AUC). Para evaluar la estabilidad interna de los predictores y el rendimiento del modelo en términos de AUC, realizamos una validación cruzada quíntuple con una división de entrenamiento y validación de 80 a 20 para cada pliegue.

Para el análisis primario con modelos BART, se consideraron todas las variables; no se realizó ninguna imputación y la falta se incluyó como una opción de división de nodos (ver Fig. 1)55. Para las comparaciones entre algoritmos de aprendizaje, se realizó la imputación K-Vecino más cercano en todas las variables antes del análisis posterior, ya que no todos los algoritmos permiten datos faltantes.

Las variables importantes se determinaron mediante la proporción de inclusión y la significancia permutada según los métodos de permutación de procedimientos locales en 1000 permutaciones13. En este análisis exploratorio, las variables se seleccionaron basándose en la significación permutada con un valor de P = 0,05 (nivel de evidencia sugestiva56) para ≥10 veces en diez ejecuciones aleatorias (es decir, un promedio de ≥1/5 veces de validación cruzada). Para las variables importantes, se generaron gráficos de dependencia parcial trazando las predicciones de resultados frente a valores variables de predictor único, mientras se mantenían constantes todas las demás variables en el modelo entrenado. Se generaron intervalos creíbles obteniendo el promedio y las desviaciones estándar de 1000 muestras posteriores del modelo BART.

Se construyó un modelo de predicción de riesgo BART utilizando las variables seleccionadas, utilizando una división de entrenamiento/prueba de dejar uno fuera para estimar las probabilidades de supervivencia previstas para cada paciente con cáncer colorrectal en estadio II o III. Las probabilidades de supervivencia previstas se clasificaron además en cuantiles de riesgo de igual tamaño (riesgo bajo, riesgo intermedio y riesgo alto) en todos los pacientes en estadio II-III. El análisis de supervivencia se realizó en los cuantiles de riesgo mediante regresión de riesgos proporcionales de Cox y prueba de rangos logarítmicos. El supuesto de riesgos proporcionales de Cox no se cumplió y, por lo tanto, los índices de riesgo (HR) deben interpretarse como HR promedio ponderados a lo largo del tiempo57. Se realizó una regresión multivariada de riesgos proporcionales de Cox con grupos de riesgo ordinales (de bajo riesgo a alto riesgo) y estadio TNM, y grupos de riesgo ordinales con variables predictoras del modelo de riesgo BART. Los índices de riesgo representan índices de riesgo asociados con un aumento de una unidad en cada variable predictiva, a menos que se codifiquen de otra manera como se describe anteriormente. Teniendo en cuenta las comparaciones múltiples inherentes, utilizamos el nivel alfa de 0,005 para significancia con un valor de P entre 0,005 y 0,05 para evidencia sugestiva, según lo recomendado por el panel de expertos estadísticos56. Todos los valores de P representan pruebas bilaterales. La idoneidad de la calibración del modelo de predicción de riesgos se evaluó mediante la prueba de bondad de ajuste de Hosmer-Lemeshow58.

Todos los algoritmos de aprendizaje automático se realizaron utilizando el paquete Caret en R59, una API contenedora para paquetes de aprendizaje automático específicos: bartMachine60, randomForest, gbm, nnet y e1071. Los gráficos de dependencia parcial se generaron usando el paquete bartMachine en R. Los gráficos ROC se generaron usando el paquete pROC en R. Los gráficos de supervivencia se generaron usando el paquete survminer en R. Los modelos de riesgos proporcionales de Cox se generaron usando el paquete de supervivencia en R. La calibración del modelo fue analizado mediante la función plotCalibration en el paquete PredictABLE en R. La interfaz del modelo de predicción de riesgos se diseñó utilizando Shiny en R. Todos los análisis estadísticos se realizaron con R 4.1.1.

Los datos más recientes del Atlas del genoma del cáncer (TCGA) (fecha de publicación: 28 de enero de 2016) se extrajeron del conjunto de datos del proyecto COADREAD (Colorectal Adenocarcinoma) utilizando el paquete R RTCGA. En el conjunto de validación se incluyeron pacientes (n = 371) con cáncer colorrectal en estadio II-III e información sobre supervivencia. Las variables disponibles, incluidos los recuentos de ganglios linfáticos positivos y negativos, la profundidad de la invasión tumoral, la edad, el sitio del tumor y el estado de inestabilidad de los microsatélites, se extrajeron del servidor y, cuando fue necesario, se reformatearon en las mismas unidades que las reflejadas en el conjunto de datos NHS/HPFS. Un solo patólogo (MZ), cegado a otros datos, realizó una revisión patológica de secciones de tejido digitales teñidas con hematoxilina y eosina TCGA de todos los casos disponibles y registró el grado de necrosis extraglandular. Como no había información disponible sobre la supervivencia específica del cáncer colorrectal en TCGA, se utilizó la supervivencia general a 5 años como resultado sustituto. En los análisis de supervivencia, la censura se fijó en 5 años porque la mayoría de las muertes específicas por cáncer colorrectal ocurren dentro de los 5 años posteriores al diagnóstico de la enfermedad, como se observó en las cohortes NHS/HPFS.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de la naturaleza vinculado a este artículo.

Debido a preocupaciones de confidencialidad y privacidad de los participantes, los datos están disponibles previa solicitud razonable por escrito. Se describe más información, incluidos los procedimientos para obtener y acceder a datos de los estudios de salud de enfermeras y el estudio de seguimiento de profesionales de la salud, en https://www.nurseshealthstudy.org/researchers (correo electrónico de contacto: [email protected]) y https://sites.sph.harvard.edu/hpfs/for-collaborators/.

Todo el código se implementó en R 4.1.1 utilizando caret como paquete principal de aprendizaje automático. Todos los códigos y scripts para reproducir los experimentos de este artículo están disponibles para fines académicos no comerciales previa solicitud razonable por escrito. De acuerdo con el procedimiento estándar de acceso controlado, nuestro Comité de Colaboradores Externos revisará las solicitudes para utilizar los recursos NHS/NHSII/HPFS. Una versión experimental del modelo de predicción de riesgos de BART está disponible públicamente para descargar en https://github.com/mm-zhao/BART.

Inamura, K. et al. El cáncer como enfermedades microambientales, sistémicas y ambientales: oportunidad para la ciencia microbiómica transdisciplinaria. Instinto 71, 2107–2122 (2022).

Artículo CAS Google Scholar

Marshall, JL y cols. Terapia adyuvante para el cáncer de colon en estadio II y III: informe de consenso de la Sociedad Internacional de Oncología Gastrointestinal. Gastrointestinal. Res. Cáncer. 1, 146-154 (2007).

PubMed PubMed Central Google Académico

Taieb, J. & Gallois, C. Quimioterapia adyuvante para el cáncer de colon en estadio III. Cánceres 12, 2679 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Bai, J., Chen, H. y Bai, X. Relación entre el estado de los microsatélites y el microambiente inmunológico del cáncer colorrectal y su aplicación al diagnóstico y tratamiento. J.Clin. Laboratorio. Anal. 35, e23810 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Mima, K. et al. Fusobacterium nucleatum en tejido de carcinoma colorrectal y pronóstico del paciente. Intestino. 65, 1973-1980 (2016).

Artículo CAS PubMed Google Scholar

Borozan, I. et al. Las características moleculares y patológicas de los tumores colorrectales y los resultados de los pacientes están asociados con Fusobacterium nucleatum y su subespecie Animalis. Cáncer Epidemiol., Biomarca. Anterior. 31, 210–220 (2022).

Artículo CAS Google Scholar

Degenhardt, F., Seifert, S. & Szymczak, S. Evaluación de métodos de selección de variables para bosques aleatorios y conjuntos de datos ómicos. Breve. Bioinformación. 20, 492–503 (2019).

Artículo de Google Scholar

Xu, G., Zhang, M., Zhu, H. y Xu, J. Una firma de 15 genes para la predicción de la recurrencia del cáncer de colon y el pronóstico basado en SVM. Gene. 604, 33–40 (2017).

Artículo CAS PubMed Google Scholar

Birks, J., Bankhead, C., Holt, TA, Fuller, A. y Patnick, J. Evaluación de un modelo de predicción para el cáncer colorrectal: análisis retrospectivo de 2,5 millones de registros de pacientes. Medicina del cáncer. 6, 2453–2460 (2017).

Artículo PubMed PubMed Central Google Scholar

Wang, J. y col. Predicción de causas de muerte multicategoría a largo plazo en pacientes con cáncer de próstata: bosque aleatorio versus modelo multinomial. Soy. J. Cáncer Res. 10, 1344-1355 (2020).

PubMed PubMed Central Google Académico

Chipman, HA, George, EI y McCulloch, RE BART: Árboles de regresión aditiva bayesiana. Ana. Aplica. Estadística. 4, 266–298 (2010).

Artículo de Google Scholar

He, S., Li, X., Viant, MR y Yao, X. Elaboración de perfiles de datos proteómicos de MS utilizando un operador de energía no lineal suavizado y árboles de regresión aditiva bayesiana. Proteómica 9, 4176–4191 (2009).

Artículo CAS PubMed Google Scholar

Bleich, J., Kapelner, A., George, EI y Jensen, ST Selección de variables para BART: una aplicación a la regulación genética. Ana. Aplica. Estadística. 8, 1750-1781 (2014).

Artículo de Google Scholar

Sparapani, R., Logan, BR, McCulloch, RE & Laud, PW Análisis no paramétrico de riesgos competitivos utilizando árboles de regresión aditiva bayesiana. Estadística. Métodos Med. Res. 29, 57–77 (2020).

Artículo PubMed Google Scholar

Amin, MB y cols. La octava edición del manual de estadificación del cáncer del AJCC: continuar construyendo un puente desde un enfoque poblacional a uno más "personalizado" para la estadificación del cáncer. CA Cáncer J. Clin. 67, 93–99 (2017).

Artículo PubMed Google Scholar

Pagès, F. et al. Validación internacional del consenso Immunoscore para la clasificación del cáncer de colon: un estudio de pronóstico y precisión. Lanceta 391, 2128–2139 (2018).

Artículo PubMed Google Scholar

Kourou, K. y col. Aprendizaje automático aplicado en la investigación del cáncer: una revisión sistemática para el diagnóstico, clasificación y pronóstico de pacientes. Computadora. Estructura. Biotecnología. J. 19, 5546–5555 (2021).

Artículo PubMed PubMed Central Google Scholar

Caruana, R. & Niculescu-Mizil, A. Una comparación empírica de algoritmos de aprendizaje supervisado. en Actas de la 23ª Conferencia Internacional sobre Aprendizaje Automático 161–168 (ACM, 2006).

Altmann, A., Toloşi, L., Sander, O. y Lengauer, T. Importancia de la permutación: una medida de importancia de característica corregida. Bioinformática 26, 1340-1347 (2010).

Artículo CAS PubMed Google Scholar

Popat, S., Hubner, R. & Houlston, RS Revisión sistemática de la inestabilidad de microsatélites y el pronóstico del cáncer colorrectal. JCO 23, 609–618 (2005).

Artículo CAS Google Scholar

Ogino, S. y col. El recuento negativo de ganglios linfáticos se asocia con la supervivencia de los pacientes con cáncer colorrectal, independientemente de las alteraciones moleculares tumorales y la reacción linfocítica. Soy. J. Gastroenterol. 105, 420–433 (2010).

Artículo PubMed Google Scholar

Väyrynen, SA et al. Impacto clínico y red de determinantes de la necrosis tumoral en el cáncer colorrectal. Hno. J. Cáncer 114, 1334–1342 (2016).

Artículo PubMed PubMed Central Google Scholar

Baxter, NN y cols. Terapia adyuvante para el cáncer de colon en estadio II: actualización de las directrices de la ASCO. JCO 40, 892–910 (2022).

Artículo CAS Google Scholar

Benson, AB y cols. Perspectivas de las directrices de la NCCN: cáncer de colon, versión 2.2018. J. Compr. Nacional. Red contra el cáncer. 16, 359–369 (2018).

Artículo de Google Scholar

Babcock, BD y cols. Cáncer de colon en etapa II de alto riesgo: no todos los riesgos son iguales. Ana. Cirugía. Oncol. 25, 1980-1985 (2018).

Artículo PubMed Google Scholar

Ugai, T. y col. Papel pronóstico de la ubicación colorrectal detallada y las características moleculares del tumor: análisis de 13.101 pacientes con cáncer colorrectal, incluidos 2994 casos de aparición temprana. J. Gastroenterol. 58, 229–245 (2023).

Artículo CAS PubMed Google Scholar

Chang, GJ, Hu, C.-Y., Eng, C., Skibber, JM y Rodriguez-Bigas, MA Aplicación práctica de una calculadora para la supervivencia condicional en el cáncer de colon. J.Clin. Oncol. 27, 5938–5943 (2009).

Artículo PubMed PubMed Central Google Scholar

Weiser, MR y cols. Una calculadora clínica basada en características moleculares y clínico-patológicas predice la recurrencia después de la resección del cáncer de colon en estadio I-III. J.Clin. Oncol. 39, 911–919 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Foersch, S. y col. Aprendizaje profundo de tinciones múltiples para la predicción del pronóstico y la respuesta al tratamiento en el cáncer colorrectal. Nat. Medicina. 29, 430–439 (2023).

Artículo CAS PubMed Google Scholar

Gründner, J. y col. Predecir resultados clínicos en cáncer colorrectal mediante aprendizaje automático. Semental. Tecnología de la salud. inf. 247, 101-105 (2018).

Google Académico

Wulczyn, E. y col. Predicción de supervivencia interpretable para el cáncer colorrectal mediante aprendizaje profundo. Dígito NPJ. Medicina. 4, 1-13 (2021).

Artículo de Google Scholar

Skrede, O.-J. et al. Aprendizaje profundo para la predicción del resultado del cáncer colorrectal: un estudio de descubrimiento y validación. Lanceta 395, 350–360 (2020).

Artículo CAS PubMed Google Scholar

Ogino, S., Nowak, JA, Hamada, T., Milner, DA y Nishihara, R. Conocimientos sobre las interacciones patógenas entre el medio ambiente, el huésped y el tumor en la encrucijada de la patología molecular y la epidemiología. Año. Rev. Pathol.: Mecan. Dis. 14, 83-103 (2019).

Artículo CAS Google Scholar

Mima, K. et al. El microbioma, la genética y las neoplasias gastrointestinales: el campo en evolución de la epidemiología patológica molecular para analizar la interacción tumor-inmune-microbioma. Tararear. Gineta. 140, 725–746 (2021).

Artículo PubMed Google Scholar

Liu, L. y col. Utilidad de la ponderación de probabilidad inversa en epidemiología patológica molecular. EUR. J. Epidemiol. 33, 381–392 (2018).

Artículo PubMed Google Scholar

Nishihara, R. y col. Incidencia y mortalidad del cáncer colorrectal a largo plazo después de una endoscopia inferior. N. inglés. J. Med. 369, 1095-1105 (2013).

Artículo CAS PubMed Google Scholar

Yamauchi, M. y col. La evaluación de las características moleculares del cáncer colorrectal a lo largo de los subsitios intestinales desafía la concepción de una dicotomía distinta entre el colorrectal proximal y el distal. Instinto 61, 847–854 (2012).

Artículo CAS PubMed Google Scholar

Mima, K. et al. Fusobacterium nucleatum en tejido de carcinoma colorrectal según localización del tumor. Clínico. Traducción Gastroenterol. 7, e200 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Khashab, MA, Pickhardt, PJ, Kim, DH y Rex, DK Anatomía colorrectal en adultos en colonografía por tomografía computarizada: distribución normal y efecto de la edad, el sexo y el índice de masa corporal. Endoscopia 41, 674–678 (2009).

Artículo CAS PubMed Google Scholar

Inamura, K. et al. Importancia pronóstica y características moleculares de las células en anillo de sello y los componentes mucinosos en el carcinoma colorrectal. Ana. Cirugía. Oncol. 22, 1226-1235 (2015).

Artículo PubMed Google Scholar

Ogino, S. y col. La reacción linfocítica al cáncer colorrectal se asocia con una supervivencia más prolongada, independientemente del recuento de ganglios linfáticos, la inestabilidad de los microsatélites y el fenotipo del metilador de la isla CpG. Clínico. Res. Cáncer. 15, 6412–6420 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Imamura, Y. et al. Análisis de asociaciones clínico-patológicas, moleculares y de pronóstico de las mutaciones del codón 61 y 146 de KRAS en el cáncer colorrectal: estudio de cohorte y revisión de la literatura. Mol. Cáncer 13, 135 (2014).

Artículo PubMed PubMed Central Google Scholar

Gurjao, C. et al. Descubrimiento y características de una firma alquilante en el cáncer colorrectal. Descubrimiento del cáncer. 11, 2446–2455 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Mima, K. et al. Fusobacterium nucleatum y células T en el carcinoma colorrectal. JAMA Oncol. 1, 653–661 (2015).

Artículo PubMed PubMed Central Google Scholar

Schmittgen, TD y Livak, KJ Análisis de datos de PCR en tiempo real mediante el método comparativo C(T). Nat. Protocolo. 3, 1101–1108 (2008).

Artículo CAS PubMed Google Scholar

Chan, AT, Ogino, S. & Fuchs, CS Aspirina y el riesgo de cáncer colorrectal en relación con la expresión de COX-2. N. inglés. J. Med. 356, 2131–2142 (2007).

Artículo CAS PubMed Google Scholar

Fujiyoshi, K. y col. Estandarizar la nomenclatura de productos genéticos: un llamado a la acción. Proc. Acad. Nacional. Ciencia. Estados Unidos 118, e2025207118 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Masugi, Y. et al. Expresión del tumor CD274 (PD-L1) y células T en el cáncer colorrectal. Tripa 66, 1463-1473 (2017).

Artículo CAS PubMed Google Scholar

Morikawa, T. y col. Asociación de alteraciones de CTNNB1 (beta-catenina), índice de masa corporal y actividad física con la supervivencia en pacientes con cáncer colorrectal. Mermelada. Medicina. Asociación. 305, 1685-1694 (2011).

Artículo CAS Google Scholar

Masugi, Y. et al. Expresión del tumor PDCD1LG2 (PD-L2) y reacción linfocítica al cáncer colorrectal. Inmunol contra el cáncer. Res. 5, 1046-1055 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ansell, SM y cols. Bloqueo de PD-1 con nivolumab en el linfoma de Hodgkin en recaída o refractario. N. inglés. J. Med. 372, 311–319 (2015).

Artículo PubMed Google Scholar

Borowsky, J. y col. Asociación de Fusobacterium nucleatum con subconjuntos específicos de células T en el microambiente del carcinoma colorrectal. Clínico. Res. Cáncer. 27, 2816–2826 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Fujiyoshi, K. y col. Gemación tumoral, grupos poco diferenciados y respuesta de células T en el cáncer colorrectal. EBioMedicina 57, 102860 (2020).

Artículo PubMed PubMed Central Google Scholar

Sí, I.-K. & Johnson, RA Una nueva familia de transformaciones de poder para mejorar la normalidad o la simetría. Biometrika 87, 954–959 (2000).

Artículo de Google Scholar

Kapelner, A. & Bleich, J. Predicción con datos faltantes mediante árboles de regresión aditiva bayesiana. Poder. J. estadística. 43, 224–239 (2015).

Artículo de Google Scholar

Benjamín, DJ y cols. Redefinir la significación estadística. Nat. Tararear. Comportamiento. 2, 6-10 (2018).

Artículo PubMed Google Scholar

Stensrud, MJ & Hernán, MA ¿Por qué realizar pruebas de riesgos proporcionales? Mermelada. Medicina. Asociación. 323, 1401-1402 (2020).

Artículo de Google Scholar

Hosmer, DW y Lemesbow, S. Pruebas de bondad de ajuste para el modelo de regresión logística múltiple. Comunitario. Estadística. Métodos teóricos 9, 1043–1069 (1980).

Artículo de Google Scholar

Kuhn, M. Construcción de modelos predictivos en R utilizando el paquete caret. J. estadística. Software. 28, 1-26 (2008).

Artículo de Google Scholar

Kapelner, A. & Bleich, J. bartMachine: aprendizaje automático con árboles de regresión aditiva bayesiana. J. estadística. Software. 70, 1–40 (2016).

Artículo de Google Scholar

Descargar referencias

Los autores desean agradecer la contribución a este estudio de los registros centrales de cáncer respaldados a través del Programa Nacional de Registros de Cáncer (NPCR) de los Centros para el Control y la Prevención de Enfermedades y/o el Programa de Vigilancia, Epidemiología y Resultados Finales (SEER) del Instituto Nacional del Cáncer. . Los registros centrales también pueden contar con el apoyo de agencias estatales, universidades y centros oncológicos. Los registros centrales de cáncer participantes incluyen los siguientes: Alabama, Alaska, Arizona, Arkansas, California, Colorado, Connecticut, Delaware, Florida, Georgia, Hawaii, Idaho, Indiana, Iowa, Kentucky, Luisiana, Massachusetts, Maine, Maryland, Michigan, Mississippi, Montana, Nebraska, Nevada, New Hampshire, Nueva Jersey, Nuevo México, Nueva York, Carolina del Norte, Dakota del Norte, Ohio, Oklahoma, Oregón, Pensilvania, Puerto Rico, Rhode Island, Registro SEER de Seattle, Carolina del Sur, Tennessee, Texas, Utah , Virginia, Virginia Occidental, Wyoming. Este trabajo fue apoyado por subvenciones de los Institutos Nacionales de Salud (NIH) de EE. UU. (P01 CA87969; UM1 CA186107; P01 CA55075; UM1 CA167552; U01 CA167552; R01 CA137178 a ATC; K24 DK098311 a ATC; R35 CA197735 a SO; R01 CA15199 3 a SO; R01 CA248857 a SO; K07 CA188126 a XZ; R21 CA252962 a XZ; R37 CA225655 a JKL; y R35 GM142879 a K.-HY); por el premio Cancer Research UK Grand Challenge (UK C10674/A27140 a KN, MG y SO); por el Premio Nodal (2016-2002) del Dana-Farber Harvard Cancer Center (a SO); por la Beca de Investigación Traslacional Stand Up to Cancer Colorrectal Cancer Dream Team (SU2C-AACR-DT22–17 para CSF y MG), administrada por la Asociación Estadounidense para la Investigación del Cáncer, un socio científico de SU2C; y mediante subvenciones del Fondo Project P, el Fondo Crush Colon Cancer, los Amigos del Instituto del Cáncer Dana-Farber, el Fondo Familiar Bennett y la Fundación de la Industria del Entretenimiento a través de la Alianza Nacional de Investigación del Cáncer Colorrectal y SU2C. JB recibió el apoyo de una subvención del Programa de Becas y Becas Endeavour de Australia Awards. KH recibió el apoyo de becas de la Uehara Memorial Foundation y la Mitsukoshi Health and Welfare Foundation. KF recibió el apoyo de una beca de la Uehara Memorial Foundation. KA recibió el apoyo de una subvención de Overseas Research Fellowship (JP2018–60083) de la Sociedad Japonesa para la Promoción de la Ciencia. TU recibió el apoyo de subvenciones de Prevent Cancer Foundation y Harvey V. Fineberg Fellowship in Cancer Prevention. SAV contó con el apoyo de la Fundación Cultural Finlandesa y la Fundación de Investigación Orion. MG cuenta con el respaldo de un premio de desarrollo profesional de la Fundación Conquer Cancer de ASCO y una investigación de High Pointe en oncología gastrointestinal. ATC es becaria de investigación de Stuart y Suzanne Steele MGH. La investigación de JAM cuenta con el apoyo del Fondo de la Cátedra Douglas Gray Woodruff, el Fondo Guo Shu Shi, el Fondo Familiar Anónimo para Innovaciones en el Cáncer Colorrectal, el Fondo P y la Fundación de la Familia George Stone. El contenido es responsabilidad exclusiva de los autores y no representa necesariamente las opiniones oficiales de los NIH. Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y análisis de datos, la decisión de publicar o la preparación del manuscrito.

Estos autores contribuyeron igualmente: Jonathan A. Nowak, Kun-Hsing Yu, Tomotaka Ugai, Shuji Ogino.

Programa en Epidemiología Patológica Molecular MPE, Departamento de Patología, Hospital Brigham and Women's y Escuela de Medicina de Harvard, Boston, MA, EE. UU.

Melissa Zhao, Mai Chan Lau, Koichiro Haruki, Juha P. Väyrynen, Carino Gurjao, Sara A. Väyrynen, Jennifer Borowsky, Kenji Fujiyoshi, Kota Arima, Tsuyoshi Hamada, Reiko Nishihara, Jonathan A. Nowak, Tomotaka Ugai y Shuji Ogino

Departamento de Oncología Médica, Instituto del Cáncer Dana-Farber y Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Juha P. Vayrynen, Sara A. Vayrynen, Andressa Dias Costa, Kimmie Ng, Jeffrey A. Meyerhardt y Marios Giannakis

Unidad de Investigación sobre Cáncer y Medicina Traslacional, Centro de Investigación Médica de Oulu, Hospital Universitario de Oulu y Universidad de Oulu, Oulu, Finlandia

Juha P. Väyrynen

Broad Institute del MIT y Harvard, Cambridge, MA, EE. UU.

Carino Gurjao, Marios Giannakis y Shuji Ogino

Departamento de Patología, Centro de Diagnóstico Integrado, Hospital General de Massachusetts y Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Jennifer Borowsky y Jochen K. Lennerz

Genentech/Roche, sur de San Francisco, California, EE. UU.

Carlos S. Fuchs

Departamento de Epidemiología, Escuela de Salud Pública TH Chan de Harvard, Boston, MA, EE. UU.

Reiko Nishihara, Molin Wang y Shuji Ogino

Departamento de Nutrición, Escuela de Salud Pública TH Chan de Harvard, Boston, MA, EE. UU.

Reiko Nishihara y Mingyang Song

Unidad de Epidemiología Clínica y Traslacional, Hospital General de Massachusetts y Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Andrew T. Chan y Mingyang Song

División de Gastroenterología, Hospital General de Massachusetts, Boston, MA, EE. UU.

Andrew T. Chan y Mingyang Song

División Channing de Medicina en Red, Departamento de Medicina, Hospital Brigham and Women's y Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Andrew T. Chan y Xuehong Zhang

Departamento de Inmunología y Enfermedades Infecciosas, Escuela de Salud Pública TH Chan de Harvard, Boston, MA, EE. UU.

Andrés T. Chan

Departamento de Bioestadística, Escuela de Salud Pública TH Chan de Harvard, Boston, MA, EE. UU.

Molin Wang

Departamento de Medicina, Hospital Brigham and Women's y Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Marios Giannakis

Departamento de Informática Biomédica, Facultad de Medicina de Harvard, Boston, MA, EE. UU.

Kun Hsing Yu

Programas de inmunología y epidemiología del cáncer, Dana-Farber Harvard Cancer Center, Boston, MA, EE. UU.

Shuji Ogino

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

Dres. MZ, MG, JAN y SO concibieron el concepto y diseño del estudio original. Dres. MZ y SO diseñaron los análisis. Los análisis estadísticos fueron realizados por el Dr. MZ y revisados ​​por el Dr. MCL Drs. MZ, JAN, K.-HY, TU y SO contaron con la ayuda de los Dres. MCL, KH, JPV y el Sr. CG Dres. MZ y SO redactaron el manuscrito y todos los autores proporcionaron revisiones críticas del manuscrito para contenido intelectual importante. Dr. JPV, Sr. CG, Dres. SAV, ADC, JB, KF, KA, TH, JKL, CSF, RN, ATC, KN, JAM, MG, JAN, TU y SO contribuyeron a la adquisición de los datos del estudio. Dres. MCL, CSF, MG, JKL, KN, SO, K.-HY y XZ obtuvieron fondos para contribuir a este manuscrito. La supervisión del estudio estuvo a cargo de los Dres. JAN, K.-HY, TU y SO

Correspondencia a Melissa Zhao o Shuji Ogino.

ATC anteriormente trabajó como consultor para Bayer Healthcare y Pfizer Inc. MG recibe financiación para investigación de Bristol-Myers Squibb, Merck, Servier y Janssen. CSF actualmente es empleado de Genentech/Roche y anteriormente trabajó como consultor para Agios, Bain Capital, Bayer, Celgene, Dicerna, Five Prime Therapeutics, Gilead Sciences, Eli Lilly, Entrinsic Health, Genentech, KEW, Merck, Merrimack Pharmaceuticals, Pfizer Inc. , Sanofi, Taiho y Unum Therapeutics; CSF también se desempeña como director de CytomX Therapeutics y posee opciones sobre acciones no ejercidas para CytomX y Entrinsic Health. Actualmente, RN trabaja en Pfizer Inc.; Contribuyó a este estudio antes de convertirse en empleada de Pfizer Inc. JAM recibió financiación institucional para investigación de Boston Biomedical, se desempeñó como asesora/consultora de Ignyta y COTA Healthcare, y formó parte de un panel de revisión de subvenciones para la Red Nacional Integral del Cáncer. financiado por Taiho Pharmaceutical. Este estudio no fue financiado por ninguna de estas entidades comerciales. K.-HY es inventor de la patente estadounidense 10.832.406 (no relacionada con este estudio). Este estudio no fue financiado por ninguna de estas empresas. CG es, en noviembre de 2022, científico investigador postdoctoral en la Universidad de Columbia en la ciudad de Nueva York y bioinformático a tiempo parcial en Watershed Informatics. No existen otros conflictos de intereses. Los demás autores no declaran tener intereses en competencia.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zhao, M., Lau, MC, Haruki, K. et al. Modelo bayesiano de predicción de riesgo de mortalidad por cáncer colorrectal mediante la integración de datos clínico-patológicos y genómicos. npj Precis. Una vez. 7, 57 (2023). https://doi.org/10.1038/s41698-023-00406-8

Descargar cita

Recibido: 25 de enero de 2023

Aceptado: 25 de mayo de 2023

Publicado: 10 de junio de 2023

DOI: https://doi.org/10.1038/s41698-023-00406-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt