Análisis de resultados de la resección o preservación parcial de la almohadilla grasa infrapatelar en pacientes con reconstrucción del ligamento cruzado anterior
May 26, 2023Los 6 mejores ejercicios de hombro con minas terrestres que puedes hacer
May 27, 2023El tamaño del mercado de rieles deslizantes para cajeros automáticos crecerá en 283,15 millones de dólares de 2022 a 2027
May 28, 2023Toma tu Fender Stratocaster y familiarízate con la hábil técnica rítmica de la estrella de la guitarra Funk Cory Wong
May 29, 2023Análisis de transacciones: explicación de la entrada de Bonk
May 30, 2023Aprendizaje de ecuaciones diferenciales parciales emergentes en un espacio emergente aprendido
Nature Communications volumen 13, número de artículo: 3318 (2022) Citar este artículo
3496 Accesos
6 citas
1 altmétrica
Detalles de métricas
Proponemos un enfoque para aprender ecuaciones de evolución efectivas para grandes sistemas de agentes que interactúan. Esto se demuestra en dos ejemplos, un sistema bien estudiado de osciladores de forma normal acoplados y un ejemplo motivado biológicamente de neuronas acopladas de tipo Hodgkin-Huxley. Para este tipo de sistemas no existe una coordenada espacial obvia en la que aprender leyes de evolución efectivas en forma de ecuaciones diferenciales parciales. En nuestro enfoque, logramos esto aprendiendo las coordenadas incorporadas de los datos de series temporales del sistema utilizando el aprendizaje múltiple como primer paso. En estas coordenadas emergentes, luego mostramos cómo se pueden aprender ecuaciones diferenciales parciales efectivas, utilizando redes neuronales, que no solo reproducen la dinámica del conjunto de osciladores, sino que también capturan las bifurcaciones colectivas cuando los parámetros del sistema varían. Por lo tanto, el enfoque propuesto integra la extracción automática basada en datos de coordenadas espaciales emergentes que parametrizan la dinámica del agente, con la identificación asistida por aprendizaje automático de una descripción PDE emergente de la dinámica en esta parametrización.
Modelar el comportamiento dinámico de grandes sistemas de agentes que interactúan sigue siendo un problema desafiante en el análisis de sistemas complejos. Debido a la gran dimensión del espacio de estados de tales sistemas, históricamente ha sido un objetivo de investigación constante construir modelos útiles de orden reducido con los que describir colectivamente la dinámica de grano grueso de los conjuntos de agentes. Estas descripciones colectivas, de grano grueso, surgen en muchos contextos, por ejemplo, en termodinámica, donde las partículas que interactúan pueden describirse efectivamente a nivel macroscópico mediante temperatura, presión y densidad; o en la teoría cinética, donde las colisiones en la ecuación de Boltzmann pueden conducir a descripciones del continuo, como las ecuaciones de Navier-Stokes, pero también en contextos como la quimiotaxis o los flujos granulares. Una cuestión importante en este análisis de grano grueso es encontrar observables de grano grueso (campos de densidad, campos de momento, campos de concentración, campos de fracción vacía) que describan la evolución del comportamiento colectivo en el espacio físico. Los modelos macroscópicos efectivos a menudo se aproximan como ecuaciones diferenciales parciales (PDE) para estos campos: sus derivadas temporales se expresan localmente en términos de las derivadas espaciales locales de los campos en cada punto. Los cierres necesarios para derivar modelos predictivos se pueden obtener matemáticamente (con supuestos apropiados) y/o semiempíricamente a través de observaciones experimentales o computacionales.
Cuando los agentes que interactúan son sistemas de osciladores acoplados, su dinámica de baja dimensión observada a veces puede describirse como un sistema agrupado de unas pocas ecuaciones diferenciales ordinarias (EDO) en términos de los llamados parámetros de orden1,2,3. Para grandes sistemas heterogéneos de osciladores que interactúan observamos, en cualquier momento dado, una distribución de estados de osciladores; ser capaz de describir útilmente esta evolución mediante unas pocas EDO para parámetros de orden apropiados corresponde, conceptualmente, a describir la evolución de la distribución a través de un conjunto finito y cerrado de unas pocas ecuaciones de momento para la distribución. Los pocos parámetros de buen orden aquí los proporcionan los pocos momentos principales en términos de los cuales se puede escribir un conjunto cerrado de EDO modelo (o incluso ecuaciones diferenciales estocásticas). Y aunque en algunos casos una descripción tan reducida puede tener bastante éxito, hay otros casos en los que unas pocas EDO no serán suficientes y en los que es necesario escribir ecuaciones de evolución (por ejemplo, PDE) para los campos en evolución del comportamiento instantáneo del oscilador ( s).
Entonces surge naturalmente la pregunta: ¿Cuál es una buena manera de parametrizar el soporte espacial de esta distribución evolutiva de comportamientos? ¿Cuáles (y cuántas) son las pocas variables espaciales independientes en cuyo espacio intentaremos derivar modelos evolutivos PDE para la evolución del comportamiento colectivo? En otras palabras, cuando el problema no evoluciona en el espacio físico (por ejemplo, cuando los osciladores son nodos en una red que interactúa) ¿existe un espacio continuo útil en el que podamos observar el comportamiento evolucionando como un campo espaciotemporal? Y si es así, ¿cómo podemos detectar este espacio emergente y sus coordenadas independientes parametrizantes de una manera basada en datos, basada en observaciones de la colección de dinámicas de agentes individuales acoplados? Por lo tanto, nuestra tarea tiene dos componentes, ambos logrados aquí de manera basada en datos: (a) encontrar coordenadas espaciales emergentes en las que el comportamiento del oscilador pueda (incrustarse y) observarse como una evolución suave del campo espaciotemporal; y (b) una vez obtenidas estas coordenadas emergentes, aprender un modelo de la dinámica evolutiva, si es posible en forma de una ecuación diferencial parcial que gobierne este campo; es decir, aproximar las derivadas temporales (puntuales) de los campos en términos de unas pocas derivadas espaciales locales del campo en las variables independientes emergentes.
La aproximación basada en datos de dichos operadores de evolución para la dinámica espaciotemporal utilizando herramientas de aprendizaje automático (redes neuronales, procesos gaussianos, aprendizaje múltiple...) es un esfuerzo de investigación de larga data: nosotros, entre otros, hemos trabajado en la identificación basada en redes neuronales. de sistemas distribuidos no lineales4,5,6; el tema está actualmente en auge en la literatura sobre aprendizaje automático, por ejemplo,7,8. El giro de nuestro trabajo aquí es que el espacio en el que se aprenderá el operador de evolución (es decir, el PDE) (las variables independientes en las que se estimarán las derivadas espaciales) no se conoce a priori sino que más bien se identificará, en un primer paso, a través de minería de datos/aprendizaje múltiple9,10. Si este enfoque tiene éxito, puede conducir a una reducción dramática del costo computacional de la simulación/predicción de la dinámica colectiva de grano grueso (en comparación con la evolución individual de cada oscilador/agente en el conjunto). Este es el caso cuando el conjunto de agentes es grande pero el conjunto de agentes puede parametrizarse con sólo unos pocos parámetros emergentes. Esta descripción reducida también permite tareas (análisis efectivo de estabilidad y bifurcación, incluso control y optimización) que serían difíciles o imposibles de realizar con el modelo de escala fina. Más importante aún, si es lo suficientemente exitosa y generalizable, esta descripción alternativa en términos de PDE de campo en variables emergentes, asistida por un mapeo computacional de ida y vuelta entre descripciones finas y burdas, puede guiar una nueva interpretación de grano grueso e incluso una comprensión de la realidad. sistemas dinámicos.
Puede parecer una contradicción entre tener una dinámica de escala fina que sabemos que involucra interacciones de largo alcance (aquí, acoplamiento de todos con todos) y aprender un modelo basado en interacciones locales (aquí, acoplamiento con osciladores que tienen un comportamiento cercano). , a través de derivados del comportamiento local en nuestro espacio emergente). Volveremos a este tema repetidamente en la discusión siguiente, pero mencionamos que los operadores aprendidos no son en sí mismos la verdadera física; no son más que una parametrización particular y parsimoniosa de la dinámica a largo plazo (después de los transitorios iniciales) en una variedad lenta de dimensiones mucho más bajas sobre la cual evoluciona el comportamiento colectivo. Es la baja dimensionalidad de esta variedad y el poder de incorporar teoremas como los de Whitney11 y Takens12 lo que permite parametrizaciones basadas en datos (en contraposición a interpretaciones mecanicistas físicamente significativas) de la dinámica de largo plazo. Los numerosos puntos de cuadrícula locales acoplados que sustentan una discretización en diferencias finitas de una PDE desempeñarán aquí el papel de los numerosos observadores genéricos que parametrizan la variedad de dimensiones relativamente bajas en la que se esperan la dinámica de largo plazo de grano grueso y los atractores del sistema. vivir.
Este enfoque es fundamentalmente diferente de los enfoques recientes donde la dinámica se aprende en un espacio latente de variables dependientes, típicamente como sistemas de EDO (pero también PDE con variables independientes conocidas). Ejemplos de estos espacios latentes de variables dependientes incluyen aprender la dinámica de los coeficientes de los componentes principales espaciales en una variedad inercial13 o aprender una EDO en un espacio latente de un codificador automático usando diccionarios y la dispersión que promueve la regularización14. Desde los primeros trabajos (por ejemplo, ver 15 sobre la ecuación de Mackey-Glass, también Refs. 5,6,16), el aprendizaje de sistemas dinámicos a partir de datos ha recuperado una mayor atención en los últimos años. Los ejemplos populares incluyen (en una vasta literatura) la escasa identificación de sistemas dinámicos no lineales utilizando diccionarios17, DeepXDE18, ODE neuronales19, redes neuronales LSTM20 y PDE-net21. Como en este último, la PDE emergente se aprenderá aquí a partir de datos de tiempo discretos utilizando un paso explícito de integración de tiempo de Euler directo (de hecho, entrenando una ResNet); También son posibles muchos otros enfoques (para una red recurrente Runge-Kutta similar a ResNet, consulte la Ref. 6).
Para encontrar coordenadas en las que aprender la descripción de PDE, seguimos el trabajo reciente9,22 y utilizamos mapas de difusión23,24, una técnica de aprendizaje múltiple no lineal. Como ejemplo basado en agentes, primero ilustramos nuestro enfoque en osciladores Stuart-Landau acoplados,
cada oscilador k = 1,…, N está representado por una variable compleja Wk y acoplada a todos los demás osciladores a través del promedio del conjunto. De hecho, la interacción de largo alcance es global, ya que el acoplamiento es de todos con todos. Cada agente, cuando se desacopla, experimenta un movimiento periódico con su propia frecuencia intrínseca ωk, diferente entre los agentes, lo que hace que el conjunto sea heterogéneo.
Supongamos que inicializamos un conjunto de N = 256 osciladores con valores Wk en una cuadrícula regular, como se muestra en la Fig. 1 (a). De este modo, el código de colores se correlaciona con la parte imaginaria de Wk. Integrando esta condición inicial usando la Ec. (1) con constante de acoplamiento K = 1.2 y frecuencias intrínsecas ωk distribuidas equiespaciadamente dentro del intervalo \(\left[-1.5,1.9\right]\) produce la dinámica en la Fig. 1(b): aunque el comportamiento parece bastante irregular Al principio, rápidamente se asienta sobre una estructura cilíndrica. Tenga en cuenta que el código de colores sigue siendo el mismo. Después de que los transitorios decaen, los agentes aparecen dispuestos en esta estructura de manera irregular si se colorean según su inicialización; vea el zoom de la parte superior como se muestra en la Fig. 1 (c). Utilizando aprendizaje múltiple, mostraremos que es posible encontrar una parametrización de los agentes (una coloración diferente) en la que la dinámica aparece más ordenada y regular. Esto se muestra en el nuevo código de colores de la última instantánea en la Fig. 1 (c) y en el atractor recoloreado en la Fig. 1 (d). De hecho, al contrastar la serie temporal de los agentes en el código de colores original i (Fig. 1(e)) y el nuevo código de colores ϕi (Fig. 1(f)), sostenemos que la dinámica aparece más regular en un espacio parametrizado por ϕi, lo que sugiere la posibilidad de que la solución pueda describirse mediante una PDE con ϕi y el tiempo como variables independientes.
a Condición inicial del conjunto Stuart-Landau, Ec. (1), coloreado con la parte imaginaria ascendente de Wk. b Trayectorias obtenidas de la integración de las condiciones iniciales de (a) con el mismo código de colores que en (a). La última instantánea está marcada con puntos negros. c Amplíe la parte superior de (b), con la última instantánea marcada con puntos negros. Encima, la última instantánea está codificada por colores según el orden de los osciladores a lo largo de la curva en ese momento. d Amplíe la parte superior de (b), pero ahora con el nuevo código de colores. e Trayectorias de la parte real de la Wk, ordenadas por sus valores iniciales \({{{{{{{\rm{Im}}}}}}}}W\). f Trayectorias de la parte real de la Wk, ordenadas por la nueva codificación de colores ϕi como en (d). (En el texto se analiza cómo encontrar ϕi).
El resto de este artículo está organizado de la siguiente manera: Primero, ilustramos nuestro enfoque a través de una caricatura, donde comenzamos con una PDE conocida en una variable espacial predefinida. Observamos la dinámica en varios puntos de malla en este espacio conocido, pero luego codificamos la serie temporal nosotros mismos, a propósito, ocultando las coordenadas espaciales donde se observó el comportamiento. Obtenemos una descripción PDE predictiva en una coordenada espacial o de heterogeneidad emergente aprendida \(\tilde{x}\), descubierta a través de la extracción de datos de estos comportamientos codificados. Luego confirmamos que esta coordenada emergente es uno a uno con la ubicación física (descartada) x de los puntos de malla originales.
Volviendo a nuestro conjunto de osciladores acoplados globalmente, mostramos cómo extraer una coordenada espacial intrínseca y aprender una descripción de PDE en esta parametrización y tiempo. Luego estudiamos las dependencias paramétricas de esta PDE: tomamos muestras de la dinámica en valores de parámetros que abarcan una bifurcación de Hopf (colectiva). Usando estos datos, mostramos que aprender una PDE con una entrada adicional para un parámetro puede capturar la ubicación y la naturaleza de las bifurcaciones en este parámetro.
Luego vamos más allá de una única dimensión espacial emergente: para un modelo matemático motivado biológicamente de neuronas acopladas de tipo Hodgkin-Huxley, utilizado para describir la dinámica en el complejo cerebral anterior a Bötzinger, la minería de datos descubre que la descripción de los comportamientos de los agentes ahora es bidimensional. Nuevamente aprendemos una PDE que describe la dinámica del agente, ahora en dos coordenadas espaciales emergentes y tiempo.
Concluimos con una discusión sobre el enfoque y sus deficiencias, y lo que percibimos como preguntas abiertas y direcciones para futuras investigaciones. También discutimos la explicabilidad de las coordenadas emergentes aprendidas para tales sistemas basados en agentes. Los detalles sobre los algoritmos y métodos numéricos se resumen en la sección Métodos. El código para reproducir los resultados está disponible en https://github.com/fkemeth/emergent_pdes.
Para una caricatura ilustrativa, utilizamos una PDE con una variable espacial independiente conocida, antes de regresar a nuestro ejemplo de agente acoplado. En este caso, tenemos una coordenada espacial independiente conocida, x, pero la codificaremos aleatoriamente nosotros mismos para validar que nuestros algoritmos puedan, de manera significativa, recuperarla. Considere la ecuación compleja 1D de Ginzburg-Landau, una PDE para la evolución de un campo complejo W(x, t) en una dimensión espacial \(x\in \left[0,L\right]\), definida por
con parámetros reales c1 = 0, c2 = −3, L = 80 y, aquí, condiciones de frontera periódicas. Integramos este sistema utilizando un método pseudoespectral con pasos de tiempo exponenciales25. Esto da como resultado una dinámica caótica espaciotemporal, la llamada intermitencia espaciotemporal, con la evolución espaciotemporal que se muestra en la Fig. 2 (a). Consulte la sección Métodos para ver un ejemplo adicional con c1 = 1, c2 = 2 y condiciones de contorno sin flujo (Neumann) que muestran dinámica periódica.
a La parte real del campo complejo W(x, t) obtenida al simular la ecuación. (2) con N = 256 puntos de malla después de que los transitorios iniciales hayan decaído. b Al eliminar la etiqueta espacial se obtiene una colección de N series de tiempo trazadas aquí en secuencia aleatoria. c Usando aprendizaje múltiple (aquí mapas de difusión), se encuentra que existen dos modos ϕ1 y ϕ2 que parametrizan estas series de tiempo. Cada punto corresponde a una de las N series de tiempo y está coloreado por su ubicación espacial codificada x. d Habiendo obtenido la incrustación, podemos introducir una coordenada emergente \(\tilde{x}\) que parametriza el círculo abarcado por ϕ1 y ϕ2. e Las partes reales de la serie temporal parametrizada por \(\tilde{x}\). f Parte real de las predicciones de simulación para la variable compleja W a partir de una condición inicial en nuestro conjunto de pruebas, utilizando el modelo de ecuación diferencial parcial aprendido con \(\tilde{x}\) como variable espacial y un dominio periódico.
Para la integración, la coordenada espacial x se discretiza en N = 256 puntos equidistantes xk. Ec. (2) por lo tanto produce N series de tiempo (aquí complejas) Wk(t) en cada punto de malla xk. Podemos pensar en el comportamiento en cada punto de la malla como el comportamiento de un agente en un conjunto de agentes que interactúan. Suponiendo que la etiqueta xk de cada agente no esté disponible (cf. Fig. 2(b), donde los agentes están parametrizados mediante un índice aleatorio i); ¿Es posible encontrar una descripción colectiva de la dinámica en estas series de tiempo basada en una variable espacial emergente basada en datos y en forma de una ecuación diferencial parcial, que involucre derivadas parciales en esta variable?
Logramos esto extrayendo una coordenada intrínseca independiente de los datos de la serie temporal. Como se propone en la Ref. 9 utilizamos mapas de difusión (cada una de las series de tiempo codificadas es un punto de datos) para extraer coordenadas que parametrizan el conjunto de series de tiempo, consulte Métodos. Puede ser cualitativamente útil (aunque usemos un algoritmo de aprendizaje múltiple no lineal) pensar en esto como realizar un análisis de componentes principales (PCA) en el conjunto de series temporales (cada una de ellas es un punto de datos) y luego mantener el componente PCA principal. como una coordenada espacial emergente. Esta coordenada emergente se utiliza para parametrizar un espacio de incrustación útil en el que aprender una PDE.
Para los datos de la serie temporal en la Fig. 2 (b), encontramos dos modos de difusión independientes ϕ1 y ϕ2, que abarcan un círculo en el espacio de los mapas de difusión, que se muestra en la Fig. 2 (c). Este círculo es uno a uno con el dominio periódico original; sin embargo, a través de la codificación, las series de tiempo Wk se ubican en una posición aleatoria a lo largo de este círculo (consulte el código de colores en la Fig. 2 (c)). Incluso sin conocer la ubicación espacial de los puntos de la malla, aún podemos extraer una coordenada basada en datos \(\tilde{x}\) que parametriza el círculo (consulte el código de colores en la Fig. 2(d)) y comenzar a aprenda una PDE con esta coordenada como dimensión espacial. Los datos parametrizados de esta manera se representan en la Fig. 2 (e). Tenga en cuenta que \(\tilde{x}\) es uno a uno con x, pero no idéntico. En particular, está desplazado (véanse los cambios en las figuras 2 (a) y (e)) debido a la no unicidad de la parametrización del dominio periódico. Ahora nos propusimos aprender una descripción de PDE basada en derivadas parciales en \(\tilde{x}\),
donde f está representada por una red neuronal completamente conectada. Consulte Métodos para obtener detalles sobre la arquitectura de la red neuronal y el muestreo de datos. Surgen una serie de problemas al aprender una PDE de este tipo en \(\tilde{x}\):
Dado que \(\tilde{x}\) en general no es idéntico a x, las trayectorias Wk no están equiespaciadas. Para calcular una aproximación en diferencias finitas de \({\partial }^{n}W/\partial {\phi }_{1}^{n}\), interpolamos el \(\tilde{x}\)-parametrizado datos usando splines cúbicas y muestra W en N = 256 puntos equidistantes en el intervalo \(\left[-\pi ,\pi \right]\).
Las PDE definen propiedades de funciones en espacios de dimensiones infinitas; no podemos muestrear todo el espacio de estados, por lo que nuestra PDE sustituta aprendida no conocerá la dinámica en todas las direcciones del espacio de estados. Varias técnicas propuestas en los últimos años (especialmente en el aprendizaje por imitación) intentan regularizar los sistemas dinámicos sustitutos. Estos incluyen la teoría de la contracción26,27,28,29 y las redes neuronales convexas30,31. Se basan en la existencia de una función de Lyapunov; otros enfoques incluyen la regularización jacobiana32,33. Sin embargo, normalmente implican condiciones de pérdida adicionales o son costosas desde el punto de vista computacional.
Aquí, tomamos muestras de múltiples transitorios hacia el atractor como datos de entrenamiento y, si es necesario, regularizamos la salida de la PDE aprendida de la siguiente manera: utilizando los datos de simulación, creamos una descomposición de valores singulares (SVD) truncada basada en todos los transitorios muestreados. Durante la inferencia, filtramos el estado obtenido mediante la integración de la salida de la red neuronal proyectándola nuevamente en este subespacio SVD truncado, manteniendo así las trayectorias predichas allí.
En la figura 2 (f) se muestra la integración desde una instantánea inicial utilizando la PDE f aprendida en la variable emergente \(\tilde{x}\). Observe la estrecha correspondencia entre la dinámica predicha y la real, cf. Figura 2(e).
En la siguiente sección, seguiremos el mismo enfoque, pero ahora para un sistema donde no hay coordenadas espaciales originales que recuperar.
Recuerde el problema original, Ec. (1), de un conjunto de osciladores Stuart-Landau acoplados a la media,
con k = 1, …, N y la constante de acoplamiento real K. Las frecuencias intrínsecas ωk se toman espaciadas linealmente en el intervalo \(\left[-\gamma +{\omega }_{0},\gamma +{\omega }_{0}\derecha]\). Dependiendo de los parámetros K y γ, se sabe que surgen una gran cantidad de fenómenos dinámicos diferentes. Los ejemplos van desde oscilaciones bloqueadas en frecuencia y dinámicas cuasiperiódicas hasta el caos y la muerte del oscilador. Ver ref. 34 para una discusión más detallada. Aquí, fijamos K = 1,2, γ = 1,7 y ω0 = 0,2, lo que da como resultado oscilaciones periódicas y sincronizadas: los osciladores del conjunto oscilan con una frecuencia común y mantienen una diferencia de fase mutua constante. La parte real de dicha dinámica se representa en la Fig. 3 (a), parametrizada por ϕ1, el primer modo de mapa de difusión independiente. En cuanto a la compleja ecuación de Ginzburg-Landau, tomamos muestras de datos no sólo sobre el atractor, sino también sobre los transitorios en su vecindad que se acercan a él. Se puede considerar que estas dinámicas a largo plazo se encuentran en una variedad lenta y atrayente; ver Métodos.
a Parte real de la variable compleja W para un sistema de N = 512 osciladores, parametrizado por el primer modo de difusión emergente ϕ1. b Dinámica obtenida del modelo aprendido integrando a partir de la misma instantánea inicial que en (a). c Distancia euclidiana más pequeña d en \({{\mathbb{C}}}^{N}\) en cada paso de tiempo entre los transitorios y el atractor verdadero para la PDE verdadera (azul) y la PDE aprendida (naranja). d El primer modo de difusión ϕ1 en función de las frecuencias intrínsecas ω del conjunto de osciladores.
Las predicciones de una condición inicial en el ciclo límite utilizando el modelo PDE aprendido se representan en la Fig. 3 (b) y se parecen mucho a la dinámica real, como se muestra en la Fig. 3 (a). Tenga en cuenta aquí que debido a la deformación de las coordenadas espaciales, es posible que las condiciones de contorno en la variable transformada ya no sean obvias. Por lo tanto aprendemos f sólo en el interior del dominio ϕ1. Cuando simulamos la PDE aprendida, proporcionamos (como condiciones de contorno) un corredor de datos espacio-temporal estrecho según sea necesario. La imposición de tales condiciones de contorno de corredor finito es particularmente importante para los sistemas basados en agentes como los que se consideran aquí, donde la forma de las fórmulas de condiciones de contorno efectivas (como Dirichlet, Neumann o Robin) en el espacio emergente no se conoce a priori. El modelo también captura la dinámica que se acerca al ciclo límite. Esto se puede visualizar integrando desde las condiciones iniciales en la variedad lenta pero fuera del ciclo límite de atracción. Integramos dicha condición inicial de nuestro conjunto de prueba utilizando Euler directo y el sistema ODE completo, Ec. (1), así como el modelo PDE emergente aprendido. La distancia euclidiana más pequeña en \({{\mathbb{C}}}^{N}\) entre estos transitorios y el atractor verdadero en cada paso de tiempo se representa en la Fig. 3(c). Tenga en cuenta que tanto los transitorios verdaderos como los aprendidos convergen al ciclo límite a una velocidad similar, y la trayectoria PDE aprendida se aproxima bien al comportamiento del sistema ODE completo. En un intento de obtener un significado físico de la coordenada emergente ϕ1, la trazamos como una función de la frecuencia intrínseca ω de los osciladores en la Fig. 3 (d). Resulta obvio que las dos cantidades son uno a uno, análogas al par (\(\tilde{x}\), x) en el complejo ejemplo de Ginzburg-Landau anterior: nuestra minería de datos ha descubierto la heterogeneidad del conjunto y lo utiliza para parametrizar la dinámica. Conociendo las ecuaciones y cómo entra ωk en ellas, se podría intentar derivar analíticamente ecuaciones de tipo Ott-Antonsen (para osciladores de fase) en el espacio ω3. No conocemos ni las ecuaciones ni la ωk (y, además, los osciladores no son osciladores de fase); Aquí todo se basa en datos.
Habiendo logrado capturar el atractor y su dinámica cercana para un solo valor de parámetro, resulta natural explorar si la PDE aprendida también puede capturar bifurcaciones: cambios cualitativos en la dinámica al cambiar los parámetros del sistema. En particular, para γ = γH ≈ 1,75, el conjunto Stuart-Landau sufre una bifurcación colectiva de Hopf, en la que la amplitud de las oscilaciones mostradas en la Fig. 3 desaparece. Para γ > γH, se produce un punto fijo estable, en el que todas las amplitudes individuales de los respectivos osciladores son cero, lo que también se denomina muerte del oscilador35. Ahora recopilamos datos para entrenar en varios valores de γ, espaciados linealmente en el intervalo \(\left[1.7,1.8\right]\), en ambos lados de la bifurcación de Hopf; el valor de γ se proporcionó como entrada adicional al modelo. Nuevamente perturbamos las direcciones propias lentas y estables de cada atractor; consulte Métodos, recopilando transitorios que informan al modelo sobre la dinámica cercana. Luego aprendimos una PDE de la forma
La dinámica aprendida, a partir de un perfil de conjunto de osciladores inicial e integrada utilizando el modelo aprendido, se muestra en la Fig. 4 para γ < γH (recuadro izquierdo) y para γ > γH (recuadro derecho). Observamos la dinámica transitoria acercándose al punto fijo W = 0 ∀ ω para γ = 1,8.
En particular, integramos a partir de condiciones iniciales aleatorias cercanas al límite establecido para T = 10000 unidades de tiempo adimensionales para el conjunto Stuart-Landau (círculos azules) y la PDE aprendida (cruces naranjas). Una amplitud media cercana a cero indica convergencia al punto fijo W = 0 ∀ ω, mientras que una 〈∣Wlimit∣〉 distinta de cero indica oscilaciones con amplitud finita. Los códigos de colores de los recuadros muestran la parte real de la variable compleja W obtenida al integrar una condición inicial cercana al punto fijo Wk = 0 con γ = 1,8 (recuadro derecho) y cerca del ciclo límite con γ = 1,7 (recuadro izquierdo ) utilizando el modelo aprendido y empleando Euler directo explícito para γ = 1,8 > γH.
Para validar aún más el enfoque, comenzamos con condiciones iniciales aleatorias en el espacio propio lento del atractor en diferentes valores de γ utilizando el sistema Stuart-Landau, ecuación. (1), así como el modelo PDE aprendido. Para ambos modelos, registramos una instantánea después de T = 10000 unidades de tiempo adimensionales y calculamos su amplitud promedio 〈∣Wlimit∣〉. Una amplitud promedio igual a cero indica que la condición inicial convergió al punto fijo W = 0 ∀ ω bajo el modelo respectivo, mientras que una amplitud distinta de cero indica convergencia al ciclo límite (colectivo/espaciotemporal). Los valores resultantes de 〈∣Wlimit∣〉 para diferentes γ se muestran en la Fig. 4, con círculos azules para la dinámica original y cruces naranjas para la dinámica aprendida. La bifurcación de Hopf se manifiesta en el aumento repentino de la amplitud cuando se varía γ. Obsérvese la estrecha correspondencia entre el modelo aprendido y el sistema oscilador original: ambos convergen a un punto fijo para γ > γH ≈ 1,75, y al ciclo límite para γ < γH ≈ 1,75.
El enfoque puede extenderse fácilmente a situaciones con más de una dimensión espacial emergente, es decir, a problemas en los que se hace necesario más de un componente del mapa de difusión para parametrizar la heterogeneidad inherente de los comportamientos de los agentes. Como ejemplo, consideramos un sistema de neuronas acopladas tipo Hodgkin-Huxley, una caricatura para modelar la dinámica en el complejo pre-Bötzinger36,37,38. El estado de la k-ésima neurona (de un total de 1024 neuronas) se especifica mediante una variable de canal hk y una variable de voltaje Vk. Además, las neuronas están acopladas de tal manera que forman una red aleatoria de tipo Chung-Lu. Esto significa que el número de conexiones de cada neurona varía de una neurona a otra. Además, las neuronas difieren en el valor del parámetro cinético \({I}_{{{{{{{{\rm{app}}}}}}}}}^{k}\) en las ecuaciones. Así, el modelo tiene dos parámetros heterogéneos: una heterogeneidad estructural resultante de la topología de la red y una heterogeneidad intrínseca a través de la corriente aplicada \({I}_{{{{{{{{\rm{app}}}}}}} }}^{k}\). Consulte la sección Métodos para obtener detalles sobre las ecuaciones dinámicas del modelo.
La figura 5 (a) muestra la dinámica del modelo para N = 1024 neuronas. Las líneas negras indican trayectorias de un subconjunto de estas neuronas, mientras que los puntos de colores marcan instantáneas. Tenga en cuenta que el sistema es periódico en el tiempo pero las neuronas se distribuyen en cada paso de tiempo.
a Trayectorias del conjunto y cinco instantáneas (puntos coloreados) en el plano V,h de un conjunto de 1024 neuronas. Para una mejor visibilidad, sólo se muestran 64 trayectorias. b Las dos coordenadas emergentes ϕ1 y ϕ2. A través del código de colores con la heterogeneidad intrínseca \({I}_{{{{{{{{\rm{app}}}}}}}}}^{k}\), se puede observar que \({I }_{{{{{{{{\rm{app}}}}}}}}}^{k}\) es una función de las coordenadas espaciales emergentes. La cuadrícula rectangular indica el espacio en el que elegimos aprender una PDE efectiva. c Instantánea de V en t = 10 obtenida ajustando los datos de simulación en la cuadrícula que se muestra en (b). d Instantánea de V en t = 10 predicha por el modelo PDE aprendido. e Gráfico espacio-temporal de la evolución de V en el corte ϕ1 = 0, como se indica en (c). f Predicciones \(\hat{V}\) de la evolución espacio-temporal de V en ϕ1 = 0. Las líneas blancas indican los límites de las condiciones de contorno.
En la Fig. 5 (b), se muestran las coordenadas emergentes para dicha dinámica, obtenidas al realizar mapas de difusión en la colección de series de tiempo simuladas. Tenga en cuenta que hay dos direcciones independientes, ϕ1 y ϕ2, que parametrizan las neuronas. Al colorear ϕ1 y ϕ2 con la heterogeneidad intrínseca \({I}_{{{{{{{\rm{app}}}}}}}}}^{k}\), se puede observar que un espacio emergente La dirección se correlaciona con este parámetro. Además, se puede demostrar que la segunda dirección corresponde aproximadamente al grado de conectividad de cada neurona en la red, es decir, al número de otras neuronas a las que está conectada directamente9.
Nuestra contribución en este artículo es aprender una PDE efectiva en un intervalo rectangular en el espacio emergente, como lo indica la cuadrícula que se muestra en la Fig. 5 (b). Esto se logra ajustando polinomios a los datos e interpolando en los puntos regulares de la cuadrícula; consulte Métodos. En la figura 5 (c) se muestra una instantánea de V en t = 10. Utilizando los datos interpolados a lo largo del atractor y de algunos transitorios, aprendemos una PDE como se describe en las secciones anteriores. Sin embargo, la entrada a la red neuronal ahora consiste en derivadas parciales de los campos h y V con respecto a ϕ1 y ϕ2, obtenidas mediante diferencias finitas. Luego se puede utilizar el modelo para predecir la dinámica de una instantánea inicial no vista hasta ahora. En la Fig. 5 (d) se muestra una instantánea de V en t = 10 obtenida integrando la misma condición inicial que en la Fig. 5 (c) usando la PDE aprendida y Euler directo. Por lo tanto, las líneas blancas indican la extensión de los delgados corredores fronterizos proporcionados en lugar de las condiciones límite durante la integración. En la Fig. 5 (e), se muestra la dinámica espacio-temporal de V a lo largo del corte unidimensional ϕ1 = 0, como lo indica la línea discontinua en la Fig. 5 (c). La dinámica predicha de V, \(\hat{V}\), a lo largo del mismo corte en el espacio emergente se representa en la Fig. 5(f). Observe la estrecha correspondencia entre la dinámica real y las predicciones del modelo aprendido.
Hemos visto que es posible aprender un modelo predictivo para la dinámica de agentes acoplados basado en derivadas parciales locales con respecto a una (o más) variables espaciales emergentes basadas en datos y el tiempo, es decir, en la forma de una ecuación diferencial parcial. Como ejemplo, investigamos un conjunto de osciladores Stuart-Landau acoplados a la media, donde cada oscilador tiene una frecuencia intrínseca ωk. Utilizando aprendizaje múltiple (aquí, mapas de difusión), pudimos extraer una coordenada intrínseca ϕ1 de segmentos de series temporales de estos osciladores. Comenzando con un solo valor de parámetro γ = 1.7 < γH, nuestros resultados indican que un modelo basado en unas pocas derivadas parciales con respecto a ϕ1 es capaz de capturar con precisión la dinámica colectiva en la variedad lenta y en el ciclo límite de atracción final. Estos resultados se extienden al caso en el que se muestrean datos para diferentes valores de γ en ambos lados del punto de bifurcación de Hopf γH. Luego, la PDE aprendida modeló con éxito los transitorios lentos hacia el ciclo límite estable o el punto fijo estable, según el parámetro. Luego ampliamos nuestro análisis a un ejemplo motivado biológicamente donde los agentes son neuronas de tipo Hodgkin-Huxley. Allí encontramos una incrustación bidimensional de la serie temporal y posteriormente aprendimos una PDE en este espacio emergente bidimensional.
Para una implementación exitosa de nuestro enfoque, empleamos una forma sistemática de muestrear datos de entrenamiento: a partir de un conjunto de límites dado, perturbamos a lo largo de la variedad lenta y estable y tomamos muestras de los transitorios que se acercan al atractor. Esta estrategia de muestreo está asistida por estimaciones de las direcciones estables lentas (y sus escalas de tiempo) a través del sistema linealizado jacobiano, que ayudan a producir condiciones iniciales informativas. Debido a la naturaleza rápida-lenta de la dinámica, encontramos que comenzar prácticamente en cualquier lugar e integrar durante un corto tiempo acercará la dinámica a esta variedad lenta.
Este también debería ser el caso al recopilar datos experimentales (descartando transitorios iniciales cortos a la variedad lenta). Claramente, no se puede esperar que el modelo aprenda el comportamiento asintótico correcto en dimensiones en las que no ha visto datos. Esto puede generar inestabilidades al intentar predecir la dinámica a largo plazo del sistema. Abordamos este problema mediante filtrado, en particular mediante una regularización SVD truncada. Se construyó una base SVD a partir de los datos de entrenamiento y, durante la inferencia, filtramos proyectando las predicciones sobre esta base; la dinámica predicha no puede salir del espacio abarcado por el SVD truncado. Esto introduce un hiperparámetro adicional al modelo: la dimensión después de la cual truncar el SVD utilizado para el filtrado. Demasiadas dimensiones pueden generar inestabilidad en las predicciones (falta de datos de entrenamiento); muy pocos conducen a representaciones deficientes y dinámicas distorsionadas. Nuestro umbral fue elegido empíricamente mediante prueba y error; el tema merece un estudio más detallado. También se pueden emplear otros enfoques, como la hiperviscosidad en el modelo PDE aprendido39,40,41, amortiguando eficazmente los componentes de mayor frecuencia.
Una cuestión importante a la hora de decidir qué modelo de PDE aprender es cuántas derivadas espaciales emergentes hay que incluir en el lado derecho de la PDE. En otras palabras, ¿cómo se puede decidir cuándo ∂W/∂t está bien aproximado por W y sus derivadas con respecto a ϕ1? Para la regresión del proceso gaussiano, un trabajo reciente que utiliza la determinación automática de relevancia ayuda a abordar este problema42. En nuestro caso volvimos a decidir empíricamente, por ensayo y error; claramente debe seguir un estudio más exhaustivo. Además, la cuestión de las condiciones de contorno en el espacio emergente (aquí utilizamos corredores de límites estrechos), así como lo que constituye un problema bien planteado para un operador identificado de manera basada en datos, constituyen cuestiones importantes (y desafiantes) a abordar; Mencionamos aquí la posibilidad de utilizar el enfoque del esquema de agua de baño para bebés en43.
La figura 4 (b) indica que el modelo aprendido captura cambios cualitativos en la dinámica al cambiar un parámetro del sistema, aquí una bifurcación de Hopf desde un punto fijo para γ > γH a oscilaciones colectivas para γ < γH. De manera más cuantitativa, informamos el espectro principal de linealización del modelo evaluado en el punto fijo. Esto se obtuvo mediante diferenciación automática del modelo de red neuronal con respecto a sus entradas. Estos cálculos pueden arrojar más luz sobre las similitudes y diferencias de las simulaciones basadas en agentes y sus descripciones emergentes de PDE. En este artículo, nos centramos en un régimen particular en el espacio de parámetros. Sin embargo, nuestro enfoque puede extenderse fácilmente a dinámicas más complejas que se conocen en un conjunto de Stuart-Landau; Se incluyen ejemplos informativos en los vídeos SI1 y SI2.
Históricamente, se sabe que los fenómenos físicos modelados a escala fina mediante simulaciones atomísticas/estocásticas/basadas en agentes a menudo se aproximan bien utilizando ecuaciones diferenciales parciales cerradas en términos de algunos de sus observables colectivos (por ejemplo, momentos de la distribución de partículas, tales como como la densidad del agente). Nuestro enfoque será útil cuando creamos que en principio existen modelos de PDE colectivos y efectivos, pero no se conocen los cierres necesarios para escribirlos. También puede proporcionar resultados útiles en regímenes donde se pueden relajar los fuertes supuestos matemáticos necesarios para obtener cierres explícitos demostrables. Esta es un área donde se han utilizado números multiescala sin ecuaciones para resolver las ecuaciones sin escribirlas, y donde se ha utilizado múltiples aprendizajes para incluso realizar esta solución sin variables (dependientes), es decir, en términos de variables dependientes desconocidas. a priori, pero revelado a través de la extracción de datos de simulaciones detalladas (ver, por ejemplo, la discusión en 44). Todo el cálculo científico en el espacio latente (por ejemplo, véanse 45 y 46) pertenece a esta clase.
Lo que es diferente y emocionante en el presente estudio es la extensión de este enfoque a problemas donde no hay variables espaciales independientes obvias: dinámica de osciladores acoplados, dinámica sobre y de redes, dinámica de sistemas de sistemas que interactúan, donde el espacio adecuado para modelar El problema no se conoce a priori. Escribir modelos en un espacio de actividad emergente de este tipo, con coordenadas de espacio emergente e incluso de tiempo emergente9, puede convertirse en un método útil para el modelador: una herramienta que amplía el conjunto de herramientas para vincular el conocimiento científico del dominio en el nivel detallado con el aprendizaje automático/múltiple para construir herramientas útiles, modelos predictivos.
Aquí, elegimos un modelo basado en descriptores locales, locales en el espacio emergente. Se puede especular sobre contextos en los que dicha descripción local podría ser beneficiosa. Ciertamente es más humanamente parsimonioso/compacto escribirlo que la lista detallada de todas las unidades y todas las interacciones. También puede ser conveniente si uno necesita hacer predicciones con memoria limitada (memoria rápida limitada de la CPU, por así decirlo). No necesitamos saber qué está haciendo cada unidad: observamos la actividad de unidades similares (que ya están incrustadas cerca en el espacio emergente) y hacemos predicciones basadas en la suavidad (expresada matemáticamente mediante series de Taylor) y el comportamiento de los vecinos. Nuestro espacio emergente puede entonces considerarse como un espacio donde (las observaciones de) comportamientos cercanos ya están agrupados de manera útil. Alternativamente, podemos pensar en este espacio como si incorporara una geometría de atención útil: los comportamientos a los que debemos prestar atención (debido a su similitud) para hacer una predicción ya son nuestros vecinos en este espacio. La proximidad geométrica en el espacio emergente nos evita tener que buscar historias de comportamiento comparables en todas las unidades que interactúan en el espacio-tiempo físico. Esto nos permite aprovechar la fluidez en los historiales de comportamiento para hacer predicciones locales con solo unos pocos datos cercanos. En nuestro ejemplo de Stuart-Landau, los osciladores están globalmente acoplados, mientras que encontramos una PDE local (sin términos integrales) que describe con éxito su comportamiento. Esta aparente desconexión entre la descripción de PDE local versus el acoplamiento global puede explicarse a través de la velocidad de propagación infinita de la información para ciertas PDE parabólicas, como la ecuación del calor. Modelar osciladores acoplados globalmente con una PDE que solo permite una velocidad de propagación finita, como la ecuación de onda, no conduciría al comportamiento correcto. En nuestro caso, la red aprendió automáticamente que es necesaria una velocidad de propagación infinita y todavía estamos investigando cómo se puede aprender ese comportamiento cualitativo de manera más efectiva.
Tocamos brevemente la explicabilidad de nuestras coordenadas espaciales emergentes al mostrar que nuestra ϕ1 era uno a uno con las frecuencias intrínsecas del oscilador y, por lo tanto, calibrable con respecto a ellas: la heterogeneidad del agente del conjunto Stuart-Landau. En el ejemplo de la neurona de Hodgkin-Huxley, se vio nuevamente que las coordenadas emergentes eran uno a uno con una parametrización de la heterogeneidad del oscilador; uno correspondió aproximadamente a la heterogeneidad cinética, mientras que el segundo correspondió a la heterogeneidad estructural (conectividad). El enfoque sugerido entonces es (a) decidir cuántas variables independientes emergentes son necesarias; (b) pedirle a un científico del dominio cantidades físicas que puedan explicarlas y luego (c) probar si las parametrizaciones explicables y basadas en datos son uno a uno en los datos (el determinante del jacobiano de la transformación es bi -Lipschitz, acotado desde cero y desde el infinito, en los datos, por ejemplo,47,48,49).
Claramente, la explicabilidad de las ecuaciones generativas y predictivas en términos de variables dependientes e independientes basadas en datos y operadores aproximados a través del aprendizaje automático es un esfuerzo crucial: ¿cuándo y por qué decidiremos que confiamos en los resultados cuando entendemos los algoritmos, pero no entendemos? ¿Los pasos físicos y mecanicistas que subyacen a las observaciones de lo que modelamos? ¿Surgirá una comprensión diferente en el espacio latente/emergente, análoga, digamos, a describir operadores en el espacio de Fourier en lugar del espacio físico, o estudiar el control en el espacio de Laplace en lugar del espacio de estados? Desde bandadas de estorninos hasta enjambres de vehículos aéreos no tripulados que interactúan, este promete ser un campo de juego apasionante para los modeladores contemporáneos.
Los mapas de difusión utilizan una función del núcleo para sopesar las distancias por pares entre los puntos de datos 23,24, normalmente el núcleo gaussiano.
con una escala de núcleo predefinida ϵ y una métrica de distancia euclidiana, que adoptamos aquí. Los puntos de datos x, y son, en nuestro caso, la serie de tiempo N, lo que da como resultado un \({{{{{{{\bf{K}}}}}}}}\in {{\mathbb{R} }}^{N\times N}\) matriz del núcleo. La normalización de filas de esta matriz central produce una matriz de transición de Markov, también llamada matriz de difusión, y sus vectores propios independientes principales correspondientes a los valores propios más grandes se pueden utilizar para parametrizar los datos50.
Tenga en cuenta que los vectores propios de la matriz de difusión corresponden a las funciones propias del operador de Laplace en la variedad de datos. Como tal, los vectores propios que pueden escribirse como funciones de otros vectores propios con valores propios mayores aparecen en la descomposición propia de la matriz de difusión. Una tarea importante al utilizar mapas de difusión es extraer los vectores propios independientes que parametrizan nuevas direcciones en los datos. Una herramienta destacada para esta tarea se desarrolló en la Ref. 50 y se basa en realizar una regresión lineal local en los vectores propios establecidos. Aquí, realizamos una inspección visual de las primeras diez direcciones propias para investigar qué vectores propios son armónicos y qué vectores propios representan nuevas direcciones en los datos. Estos vectores propios de difusión independientes luego se escalan al intervalo \(\left[-1,1\right]\) para una mejor comparación.
Considere la compleja ecuación de Ginzburg-Landau
en una dimensión espacial x, en un dominio de longitud L. Resolvemos esta ecuación usando una condición inicial aleatoria con condiciones de contorno periódicas y valores de parámetros c1 = 0, c2 = − 3 y L = 80 usando un método pseudoespectral con pasos de tiempo exponencial25. Tomamos muestras de datos después de que los transitorios iniciales hayan decaído, es decir, después de 1000 unidades de tiempo adimensionales. La evolución espaciotemporal posterior se representa en la Fig. 2 (a).
Los datos para entrenar nuestro modelo se muestrean como se describe a continuación: Para el número de ejemplos de entrenamiento, establecemos ntrain = 20 y para el número de ejemplos de prueba ntest = 2, lo que produce ntotal = 22. Por lo tanto, integramos a partir de condiciones iniciales aleatorias ntotal = 22 veces por 1000 unidades de tiempo adimensionales. Posteriormente perturbamos la instantánea resultante agregando nuevamente ruido a la solución. De esta manera, perturbamos un poco el atractor, permitiendo que nuestro modelo conozca la estabilidad de la variedad atractora. Luego integramos cada instantánea perturbada durante otras 20 unidades de tiempo adimensionales y tomamos muestras de datos cada dt = 0,02 pasos de tiempo. Esto significa que, en total, hay 20000 pares de datos instantáneos para entrenamiento y 2000 para validación. Para encontrar una parametrización para los puntos de discretización del PDE, concatenamos la serie temporal de entrenamiento de N = 256 puntos, lo que da como resultado 20.000 × 20 trayectorias largas. Luego, usamos mapas de difusión con una distancia euclidiana y un núcleo gaussiano, y tomamos la escala del núcleo ϵ = 100 de manera que solo series temporales cercanas influyan efectivamente en el cálculo de los mapas de difusión. Esto da como resultado los dos modos independientes ϕ1 y ϕ2, como se muestra en la Fig. 2 (c). Luego parametrizamos el círculo usando el ángulo \(\tilde{x}\in \left[-\pi ,\pi \right[\). Volvemos a muestrear datos en una cuadrícula regular en el intervalo \(\left[-\pi ,\pi \right[\) usando una spline cúbica. Estimamos la derivada del tiempo en cada punto usando diferencias finitas en el tiempo,
Usando los pares \((W(\tilde{x},{t}_{j}),{\partial }_{t}W(\tilde{x},{t}_{j}))\) , entrenamos una red neuronal f de manera supervisada de la siguiente manera: tomamos N = 256 puntos de discretización en cada instantánea. En estos puntos calculamos las primeras nderivs = 2 derivadas espaciales usando una plantilla de diferencias finitas de longitud l = 5 y el núcleo de diferencias finitas respectivo para cada derivada espacial del orden de precisión más alto que cabe en l = 5. El modelo toma así la forma
con las derivadas calculadas en la coordenada espacial emergente \(\tilde{x}\) como se describe arriba. Tenga en cuenta que \(W(\tilde{x},t)\) es complejo, lo que significa que en cada \(({\tilde{x}}_{i},{t}_{j})\) la entrada a la red neuronal es de 6 dimensiones para nderivs = 2. La red en sí está compuesta de 4 capas ocultas completamente conectadas con 96 neuronas cada una y una función de activación Swish (lo que da como resultado ≈28 ⋅ 103 parámetros entrenables). La capa de salida contiene dos neuronas sin función de activación, una neurona para la parte real e imaginaria de ∂tW, respectivamente. Los pesos de la red se inicializan de manera uniforme usando la inicialización de peso predeterminada de PyTorch51 y se optimizan usando el optimizador Adam52 con una tasa de aprendizaje inicial de 2 ⋅ 10−3 y un tamaño de lote de 128. Error cuadrático medio entre el \({\partial } predicho y el real _{t}W({\tilde{x}}_{i},{t}_{j})\), Ec. (8), se toma como pérdida. El modelo se entrena durante 400 épocas y la tasa de aprendizaje se reduce en un factor de 2 si la pérdida de validación no disminuye durante 10 épocas. No hace falta decir que también se pueden utilizar otros enfoques de propósito general para aprender el lado derecho del operador (procesos gaussianos42, armónicos geométricos53, etc.).
La inferencia se realiza tomando una instantánea perturbada inicial de los datos de validación e integrándola en el tiempo utilizando el modelo aprendido utilizando el método Runge-Kutta-4(5) de Scipy y nuevamente condiciones de contorno periódicas. Los resultados se muestran en la Fig. 2 (f).
Considere la compleja ecuación de Ginzburg-Landau
en una dimensión espacial x, en un dominio de longitud L. Integramos a partir de la condición inicial
utilizando un método de diferencias finitas en el espacio y un método implícito de Adams para la integración, y datos de muestra después de que los transitorios iniciales hayan decaído, es decir, después de 4000 unidades de tiempo adimensionales. Esta evolución espaciotemporal se representa en la Fig. 6 (a).
a La parte real del campo complejo W(x, t) obtenida al simular la ecuación. (2) con N = 128 puntos de malla después de que los transitorios iniciales hayan decaído. b Al eliminar la etiqueta espacial se obtiene una colección de N series de tiempo trazadas aquí en secuencia aleatoria. (c) Utilizando aprendizaje múltiple (aquí mapas de difusión), se encuentra que existe una parametrización unidimensional ϕ1 de estas series de tiempo. Cada punto corresponde a una de las N series de tiempo y está coloreado por su ubicación espacial real x. d Las partes reales de la serie temporal parametrizada por ϕ1. e Parte real de las predicciones de simulación para la variable compleja W a partir de una condición inicial en nuestro conjunto de prueba, utilizando el modelo de ecuación diferencial parcial aprendido con ϕ1 como variable espacial. Dado que no hay condiciones de contorno analíticas disponibles, proporcionamos los valores verdaderos cerca de los límites durante la integración, dentro de un corredor indicado por líneas verticales blancas. f Distancia euclidiana más pequeña d en \({{\mathbb{C}}}^{N}\) entre los transitorios y el atractor verdadero en cada paso de tiempo: PDE verdadera (azul), PDE aprendida (naranja).
Resolvemos esta ecuación usando la condición inicial.
con condiciones de contorno de flujo cero y valores de parámetros c1 = 1, c2 = 2 y L = 200. Vale la pena señalar que hay una ligera asimetría izquierda-derecha en la solución que se muestra en la Fig. 6 (a). Debido a la simetría del dominio espacial, existen dos soluciones estables para este conjunto de parámetros; uno tiene una amplitud ligeramente mayor para x grande, la otra, versión reflejada, tiene una amplitud mayor para x pequeña. La elección de la condición inicial definida anteriormente conduce a una convergencia a la misma solución en cada ejecución. Sin embargo, todas las condiciones iniciales eventualmente se reducirán a una solución periódica.
Numéricamente, integramos usando una plantilla de tres puntos para la aproximación en diferencias finitas de la segunda derivada ∂2/∂x2 con Nint = 256 puntos de discretización y un método implícito de Adams con dt = 10−3 para la evolución temporal. El comportamiento resultante se representa en la Fig. 6 (a). Los datos para entrenar nuestro modelo se muestrean como se describe a continuación: Para el número de ejemplos de entrenamiento, establecemos ntrain = 20 y para el número de ejemplos de prueba ntest = 1, lo que produce ntotal = 21. En ntotal = 21 puntos a lo largo del ciclo límite como se muestra en la Fig. 6(a), tomamos muestras de datos de la siguiente manera: En \({t}_{i}={t}_{\min }=2000+id\tau\) con i ∈ {0,…, ntotal − 1}, con dτ = 100, perturbamos el ciclo límite escalando la instantánea respectiva en ti como 0,9 ⋅ W(x, ti) y 1,1 ⋅ W(x, ti). Integramos ambas instantáneas hacia adelante en el tiempo para T = 20 unidades de tiempo y datos de muestra después de cada dt = 10−3. Esto da como resultado dos transitorios, cada uno compuesto por 20.001 instantáneas en cada ti. Esto significa que, en total, hay 2 × 20 000 × 20 = 8 ⋅ 105 pares de datos instantáneos para entrenamiento y 2 × 20 000 para validación. Posteriormente, reducimos la muestra de los datos a N = 128 puntos por instantánea. Para encontrar una parametrización para los puntos de discretización del PDE, concatenamos la serie temporal de entrenamiento de N = 128 puntos, lo que da como resultado 2 × 20000 × 20 trayectorias largas. Luego, utilizamos mapas de difusión con una distancia euclidiana y un núcleo gaussiano, y tomamos la escala del núcleo ϵ como la mediana de todas las distancias al cuadrado. Esto da como resultado la parametrización unidimensional ϕ1, como se muestra en la Fig. 6 (c). Volvemos a muestrear datos en una cuadrícula regular en el intervalo \(\left[-1,1\right]\) usando una spline cúbica. Estimamos la derivada del tiempo en cada punto usando diferencias finitas en el tiempo,
produciendo 20000 (W(x, tj), ∂tW(x, tj)) pares por transitorio y ti.
Usando los pares (W(x, tj), ∂tW(x, tj)), entrenamos una red neuronal f tal que
de manera supervisada de la siguiente manera: Tomamos N = 128 puntos de discretización en cada instantánea. En estos puntos calculamos las primeras nderivs = 3 derivadas espaciales usando una plantilla de diferencias finitas de longitud l = 9 y el respectivo núcleo de diferencias finitas para cada derivada espacial del orden de precisión más alto que cabe en l = 9. El modelo toma así la forma
con las derivadas calculadas como se describe anteriormente. Tenga en cuenta que W(x, t) es complejo, lo que significa que en cada (xi, tj) la entrada a la red neuronal es de 8 dimensiones para nderivs = 3. La red en sí está compuesta por 4 capas ocultas completamente conectadas con 96 neuronas cada una. y función de activación tanh (lo que da como resultado ≈28 ⋅ 103 parámetros entrenables). La capa de salida contiene dos neuronas sin función de activación, una neurona para la parte real e imaginaria de ∂tW, respectivamente. Los pesos de la red se inicializan uniformemente usando la inicialización de peso predeterminada de PyTorch51, y se optimizan usando el optimizador Adam52 con una tasa de aprendizaje inicial de 10−3 y un tamaño de lote de 1024. Error cuadrático medio entre el ∂tW(xi, tj) predicho y real, Ec. (13), se toma como pérdida. El modelo se entrena durante 60 épocas y la tasa de aprendizaje se reduce en un factor de 2 si la pérdida de validación no disminuye durante 7 épocas. No hace falta decir que también se pueden utilizar otros enfoques de propósito general para aprender el lado derecho del operador (procesos gaussianos42, armónicos geométricos53, etc.).
La inferencia se realiza tomando una instantánea inicial de los datos de validación cerca o en el ciclo límite e integrándola en el tiempo utilizando el modelo aprendido y un esquema de integración como Euler directo. En cada paso de tiempo, las condiciones de contorno (en forma de corredores de límites estrechos) se toman de los datos reales del terreno. Surge la cuestión del ancho adecuado para estos corredores y, de manera más general, la prescripción de condiciones límite/iniciales/internas apropiadas para el buen planteamiento del problema general, especialmente porque el operador (el lado derecho del PDE) viene en forma de caja negra. Este es ya el tema de una extensa investigación que nosotros, entre otros, estamos llevando a cabo54.
Además, cada instantánea predicha del modelo se filtra como se describe a continuación. Se realiza un SVD sobre todo el conjunto de datos de entrenamiento. Utilizando las matrices U y V obtenidas, podemos descomponer cada instantánea predicha durante la inferencia. Al hacerlo, truncamos la descomposición SVD después de dos dimensiones y reconstruimos la instantánea. Esto significa que cada instantánea se proyecta en el subespacio bidimensional en el que se encuentran los datos de entrenamiento y, por lo tanto, evita que las direcciones que no se han muestreado crezcan durante la inferencia. La dinámica resultante obtenida del modelo aprendido y utilizando una instantánea inicial del ciclo límite se representa en la Fig. 6 (e). Se proporcionan límites de 4 puntos de ancho a ambos lados del dominio. La dinámica aprendida se puede investigar más claramente comparando la dinámica transitoria verdadera y la aprendida hacia el ciclo límite. Para hacerlo, integramos una instantánea perturbada fuera del ciclo límite usando la compleja ecuación de Ginzburg-Landau y el modelo aprendido, y calculamos la distancia euclidiana más pequeña en \({{\mathbb{C}}}^{N}\) en cada paso de tiempo de las trayectorias obtenidas hasta el ciclo límite. Los resultados se muestran en la Fig. 6 (f).
También comprobamos cuidadosamente que el modelo aprendido converge con respecto al número de puntos de discretización N.
Integramos la Ec. (1) utilizando un método de Adams implícito con las condiciones iniciales de los osciladores distribuidas uniformemente en el cuadrado unitario en el plano complejo. De este modo, las frecuencias intrínsecas están espaciadas linealmente en el intervalo \(\left[-1.5,1.9\right]\), y la constante de acoplamiento se toma como K = 1,2. La dinámica representada en las Figs. 1 y 3 son globalmente estables para los parámetros aquí considerados34. De hecho, las condiciones iniciales arbitrarias decaen exponencialmente hasta el ciclo límite. Este comportamiento puede investigarse con más detalle utilizando la teoría de Floquet: la convergencia al ciclo límite puede luego describirse mediante multiplicadores de Floquet con sus direcciones propias asociadas. Dado que el ciclo límite descrito anteriormente es estable, los valores absolutos de los multiplicadores de Floquet son menores que uno, excepto uno de ellos que es igual a uno. En particular, los multiplicadores con gran magnitud indican direcciones de atracción lenta, mientras que los multiplicadores con valores absolutos cercanos a cero indican direcciones de decadencia rápida. Si están presentes multiplicadores de Floquet tanto pequeños como grandes, entonces existen transitorios con múltiples escalas de tiempo. Siguiente Ref. 55, calculamos los multiplicadores de Floquet calculando la matriz de monodromía V a lo largo del ciclo límite. En particular, obtenemos V por la integración
siendo V(0) = I2N×2N, siendo I la matriz identidad y T el período de una oscilación. La matriz \(\frac{\partial F}{\partial x}\) representa el jacobiano de la ecuación. (1) obtenido analíticamente mediante diferenciación y evaluado a lo largo del ciclo límite. Los valores propios de V(T) corresponden entonces a los multiplicadores de Floquet, siendo los vectores propios correspondientes sus respectivas direcciones.
Los multiplicadores más grandes obtenidos de esta manera, junto con las tres direcciones propias más lentas, se muestran en la Fig. 7. Observe que el multiplicador único igual a uno representa la dirección neutral a lo largo del ciclo límite. Además, hay un par de valores propios conjugados complejos λ2,3 ≈ − 0,4 ± 0,4i (naranja en la Fig. 7). Debido a la magnitud de sus partes reales, la dinámica en este espacio propio es lenta en comparación con las direcciones propias posteriores. Estas direcciones propias son, como se desprende de la Fig. 7 (b), funciones suaves de las frecuencias ωk. Además, las perturbaciones en este espacio propio bidimensional giran en espiral hacia el ciclo límite estable.
a Valores absolutos de los multiplicadores de Floquet, \(\left|{\lambda }_{i}\right|\), obtenidos de la matriz de monodromía para la dinámica mostrada en la Fig. 3. b Dirección propia v1 correspondiente al par de complejos multiplicadores conjugados λ2 y λ3 (marcados en naranja) que indican una dirección de atracción lenta. c, d Direcciones propias v2 y v3 correspondientes a los pares de multiplicadores conjugados complejos λ4, λ5 y λ6, λ7, marcados en verde y rojo, que indican direcciones de contracción rápida. Tenga en cuenta que como las Wk son complejas, las direcciones vi son complejas, con las partes reales indicadas como curvas sólidas y las partes imaginarias indicadas como curvas sombreadas.
Las direcciones de los multiplicadores posteriores afectan sólo a osciladores aislados. En particular, la dirección posterior (verde en la Fig. 7) que sigue al espacio propio lento afecta solo al oscilador más rápido, es decir, el oscilador con la frecuencia intrínseca más grande ωk. La siguiente dirección perturba entonces el segundo oscilador más rápido (rojo en la Fig. 7), y así sucesivamente. La estructura escalonada de los multiplicadores de Floquet resalta el comportamiento multiescala del sistema de oscilador acoplado: la oscilación y la dinámica lenta en espiral hacia adentro en una escala, y la dinámica de un oscilador único hacia el límite en la otra, la escala rápida. Estas direcciones propias con soporte en los más diferentes osciladores son indicativas de la bifurcación SNIPER que marca el borde de sincronización.
Tomamos muestras de datos integrando el sistema Eq. (1) desde las condiciones iniciales aleatorias descritas anteriormente, hasta que la dinámica se asiente en el ciclo límite. Para nlc diferentes puntos a lo largo del ciclo límite, calculamos la matriz de monodromía a partir de la ecuación. (16) y estimar la dirección propia menos estable v1 transversal al ciclo límite, presumiblemente situada en la variedad estable lenta. Luego, perturbamos en esta dirección perturbando cada punto Wlc en el ciclo límite como Wlc ± ϵv1, con ϵ = 0,1. Esto produce tres puntos iniciales; la integración de estos puntos durante un período de tiempo fijo devuelve dos transitorios hacia el ciclo límite y una trayectoria en el atractor. Aquí, elegimos nlc = 20 para los datos de entrenamiento y nlc = 5 para los datos de prueba, y una ventana de tiempo de T = 200 unidades de tiempo adimensionales con una tasa de muestreo de dt = 0,05, lo que produce 4000 puntos de datos por trayectoria, o 3 ⋅ ncl ⋅ T/dt = 240.000 puntos de datos de entrenamiento y 60.000 puntos de datos de prueba. Las series de tiempo concatenadas de longitud 3 ⋅ nlc ⋅ T/dt sirven como puntos de datos de entrada para mapas de difusión; En 9 se explora la posibilidad de utilizar fragmentos de series temporales de diferentes duraciones. Luego se estima la derivada temporal ∂tW utilizando diferencias finitas, cf. Ec. (13). Al cambiar también el parámetro del sistema γ, proporcionamos para cada punto de datos el valor γ correspondiente como entrada adicional a la red. Además, los datos de entrenamiento constan de valores de γ uniformes en \(\left[1.7,1.8\right]\) y los datos de prueba de γ muestreados aleatoriamente son diferentes de los datos de entrenamiento. Además, estimamos una base SVD a partir de los datos de entrenamiento completos. Durante la inferencia, la predicción de f se reconstruye utilizando esta base y un truncamiento con ns = 3 dimensiones.
Para la extracción de modos de difusión, utilizamos una escala kernel de ϵ = 20 para el caso en que γ es fijo y ϵ = 10 cuando tomamos muestras de datos con diferentes valores de γ. Otros hiperparámetros y la arquitectura del modelo se describen en la sección anterior.
Siguiendo las referencias. 36,37,38, modelamos la dinámica de cada neurona usando las variables Vk y hk como
con k = 1, …, N. Las neuronas se acoplan a través de la corriente sináptica \({I}_{{{{{{{{\rm{syn}}}}}}}}}^{k}\) dada por
con la matriz de adyacencia simétrica Akj. Las funciones no lineales \(m\left(V\right)\), \({h}_{\infty }\left(V\right)\), \(\tau \left(V\right)\) y \(s\left(V\right)\) están dados por
con las constantes C = 0.21, ϵ = 0.1, gNa = 2.8, gl = 2.4, gsyn = 0.3, VNa = 50, Vl = −65, Vsyn = 0 y N = 1024. Las corrientes aplicadas \({I}_{ {{{{{{{\rm{app}}}}}}}}^{k}\) para cada neurona k se toma como \({I}_{{{{{{{{\rm{ app}}}}}}}}}^{k}=22+2{\omega }_{k}\) con ωk distribuido uniformemente en \(\left[-1,1\right]\).
La matriz de adyacencia Akj se construye utilizando la topología de red Chung-Lu. Sus entradas son 1 con probabilidad.
con j < k, y los pesos wk se definen como wk = pN(k/N)r, p = 0,9, r = 0,25. Tenga en cuenta que tomamos Ajk = Akj tal que la matriz de adyacencia es simétrica.
Integramos el modelo usando el método de Runge-Kutta de orden 5(4)56 partiendo de condiciones iniciales idénticas Vk = − 60 y hk = 0. Recopilamos datos después de \({t}_{\min }=120\) cada dt = 2 ⋅ 10−3 pasos de tiempo, hasta \({t}_{\max }=140\). En cuanto a la compleja ecuación de Ginzburg-Landau, perturbamos la solución del atractor de ciclo límite. Nuevamente escalamos las instantáneas usando un factor constante \(p\in \left\{0.9,1.1\right\}\) tal que
e integramos estas instantáneas perturbadas hacia adelante en el tiempo durante un intervalo de t = 20. Hacemos esto tres veces a lo largo del ciclo límite para muestrear transitorios para el entrenamiento y un tiempo adicional para las pruebas. Finalmente, los datos muestreados se reescalan Vk → (Vk + 37)/30 y hk → (hk − 0,42)/0,2 de modo que ambas variables estén aproximadamente centradas en la media y se distribuyan en el mismo intervalo.
Empleamos mapas de difusión con una escala kernel de ϵ = 4000 según estudios anteriores9. Como en las secciones anteriores, escalamos los vectores propios de difusión resultantes al intervalo \(\left[-1,1\right]\). Ajustamos los datos en la cuadrícula rectangular que se muestra en la Fig. 5 (b) usando polinomios de orden máximo dos. Luego, los datos se interpolan en una malla de 64 puntos de cuadrícula en cada dirección.
El modelo PDE está representado por una red neuronal con tres capas ocultas de 64 neuronas, cada una seguida de una función de activación tanh. La entrada en cada punto consiste en los valores de Vk y hk reescalados e interpolados, así como sus derivadas espaciales tanto en ϕ1 como en ϕ2 hasta orden tres obtenidas usando diferencias finitas. Aquí, por simplicidad, no utilizamos derivados mixtos. El modelo se optimiza minimizando el error cuadrático medio entre su salida y las derivadas temporales de Vk y hk obtenidas a través de diferencias finitas en el tiempo. Para la integración, usamos la salida de la red neuronal y avanzamos en el tiempo usando Euler directo con dt = 2 ⋅ 10−3. Finalmente, escalamos los Vk y hk resultantes a sus variables físicas, como se muestran en la Fig. 5.
Para el filtrado, mantenemos 10 modos SVD, capturando más del 99,99% de la varianza contenida en los datos.
Los datos generados en este estudio se proporcionan en el archivo de información complementaria/datos fuente. Todos los datos se pueden reproducir utilizando el código publicado en https://github.com/fkemeth/emergent_pdes. Los datos originales se proporcionan con este documento.
El código fuente para generar los datos reportados y reproducir los resultados, así como todas las figuras, está disponible en https://github.com/fkemeth/emergent_pdes.
Kuramoto, Y. Oscilaciones químicas, ondas y turbulencias, vol. 19 de Springer Series in Synergetics (Springer-Verlag Berlin Heidelberg, 1984). https://www.springer.com/us/book/9783642696916.
Strogatz, SH De kuramoto a crawford: explorando el inicio de la sincronización en poblaciones de osciladores acoplados. Physica D: fenómeno no lineal. 143, 1-20 (2000).
Artículo MathSciNet Google Scholar
Ott, E. & Antonsen, TM Comportamiento de baja dimensión de grandes sistemas de osciladores acoplados globalmente. Caos: Interdisciplina. J. Ciencia no lineal. 18, 037113 (2008).
Artículo MathSciNet Google Scholar
Krischer, K. y col. Identificación del modelo de una reacción catalítica que varía espaciotemporalmente. AIChE J. 39, 89–98 (1993).
Artículo CAS Google Scholar
Rico-Martínez, R., Krischer, K., Kevrekidis, I., Kube, M. y Hudson, J. Procesamiento de señales no lineales en tiempo discreto versus continuo de datos de electrodisolución de cu. Química. Ing. Comunitario. 118, 25–48 (1992).
Artículo de Google Scholar
González-García, R., Rico-Martínez, R. & Kevrekidis, I. Identificación de sistemas de parámetros distribuidos: un enfoque basado en redes neuronales. Química de Computadoras. Ing. 22, S965–S968 (1998).
Artículo de Google Scholar
Brunton, SL, Noack, BR y Koumoutsakos, P. Aprendizaje automático para mecánica de fluidos. Ana. Rev. Mec. de fluidos. 52, 477–508 (2020).
ADS del artículo Google Scholar
Lu, L., Jin, P. & Karniadakis, GE Deeponet: Aprendizaje de operadores no lineales para identificar ecuaciones diferenciales basadas en el teorema de aproximación universal de operadores. Preimpresión de arXiv: 1910.03193 (2020). 1910.03193.
Kemeth, FP y cols. Un espacio emergente para datos distribuidos con orden interno oculto a través de múltiples aprendizajes. Acceso IEEE 6, 77402–77413 (2018).
Artículo de Google Scholar
Arbabi, H., Kemeth, FP, Bertalan, T. y Kevrekidis, I. Sistemas de parámetros distribuidos emergentes y de grano grueso a partir de datos. Preimpresión de arXiv: 2011.08138 (2020). 2011.08138.
Whitney, H. Colectores diferenciables. Ana. Matemáticas. 37, 645–680 (1936).
Artículo MathSciNet Google Scholar
Takens, F. Detectar atractores extraños en turbulencias (págs. 366–381. Springer Berlin Heidelberg, Berlín, Heidelberg, 1981).
Reservar Google Académico
Linot, AJ y Graham, MD Aprendizaje profundo para descubrir y predecir dinámicas en una variedad inercial. Física. Rev. E 101, 062209 (2020).
Artículo ADS MathSciNet CAS Google Scholar
Champion, K., Lusch, B., Kutz, JN y Brunton, SL Descubrimiento de coordenadas y ecuaciones rectoras basado en datos. Proc. Nacional. Acad. Ciencia. 116, 22445–22451 (2019).
Artículo ADS MathSciNet CAS Google Scholar
Lapedes, AS & Farber, RM Cómo funcionan las redes neuronales. En Anderson, DZ (ed.) Neural Information Processing Systems, 442-456 (Instituto Americano de Física, 1988). http://papers.nips.cc/paper/59-how-neural-nets-work.pdf
Hudson, J. y col. Procesamiento de señales no lineales e identificación de sistemas: aplicaciones a series temporales de reacciones electroquímicas. Química. Ing. Ciencia. 45, 2075 – 2081 (1990).
Artículo de Google Scholar
Brunton, SL, Proctor, JL y Kutz, JN Descubrimiento de ecuaciones rectoras a partir de datos mediante una identificación escasa de sistemas dinámicos no lineales. Proc. Nacional. Acad. Ciencia. 113, 3932–3937 (2016).
Artículo ADS MathSciNet CAS Google Scholar
Lu, L., Meng, X., Mao, Z. y Karniadakis, GE Deepxde: una biblioteca de aprendizaje profundo para resolver ecuaciones diferenciales. Preimpresión de arXiv: 1907.04502 (2019). http://arxiv.org/abs/1907.04502v2
Chen, RTQ, Rubanova, Y., Bettencourt, J. y Duvenaud, DK Ecuaciones diferenciales neuronales ordinarias. En Bengio, S. et al. (eds.) Avances en los sistemas de procesamiento de información neuronal, vol. 31, 6571-6583 (Curran Associates, Inc., 2018). https://proceedings.neurips.cc/paper/2018/file/69386f6bb1dfed68692a24c8686939b9-Paper.pdf
Vlachas, PR, Byeon, W., Wan, ZY, Sapsis, TP y Koumoutsakos, P. Pronóstico basado en datos de sistemas caóticos de alta dimensión con redes de memoria a corto plazo. Proc. Sociedad Real. R: Matemáticas, Física. Ing. Ciencia. 474, 20170844 (2018).
Artículo ADS MathSciNet Google Scholar
Long, Z., Lu, Y., Ma, X. y Dong, B. PDE-net: aprendizaje de PDE a partir de datos. En Dy, J. & Krause, A. (eds.) Actas de la 35ª Conferencia Internacional sobre Aprendizaje Automático, vol. 80 de Proceedings of Machine Learning Research, 3208-3216 (PMLR, Stockholmsmässan, Estocolmo, Suecia, 2018). http://proceedings.mlr.press/v80/long18a.html
Thiem, TN, Kooshkbaghi, M., Bertalan, T., Laing, CR y Kevrekidis, IG Espacios emergentes para osciladores acoplados. Frente. Computación. Neurociencias. 14 (2020). https://doi.org/10.3389/fncom.2020.00036
Nadler, B., Lafon, S., Coifman, RR y Kevrekidis, IG Mapas de difusión, agrupamiento espectral y coordenadas de reacción de sistemas dinámicos. Aplica. Computadora. Anal armónico. 21, 113-127 (2006).
Artículo MathSciNet Google Scholar
Coifman, RR y Lafon, S. Mapas de difusión. Aplica. Computación. Anal armónico. 21, 5–30 (2006).
Artículo MathSciNet Google Scholar
Cox, S. y Matthews, P. Diferenciación de tiempo exponencial para sistemas rígidos. J. Computat. Física. 176, 430–455 (2002).
Artículo ADS MathSciNet CAS Google Scholar
Lohmiller, W. & Slotine, J.-JE Sobre análisis de contracción para sistemas no lineales. Automática 34, 683–696 (1998).
Artículo MathSciNet Google Scholar
Singh, S., Richards, SM, Sindhwani, V., Slotine, J.-JE y Pavone, M. Aprendizaje de dinámicas no lineales estabilizables con regularización basada en contracciones. CoRR (2019). http://arxiv.org/abs/1907.13122v1
Blocher, C., Saveriano, M. & Lee, D. Aprendizaje de sistemas dinámicos estables mediante la teoría de la contracción. En 2017, 14ª Conferencia Internacional sobre Robots Ubicuos e Inteligencia Ambiental (URAI) (2017). https://doi.org/10.1109/urai.2017.7992901
Sindhwani, V., Tu, S. y Khansari, M. Aprendizaje de campos vectoriales contraídos para un aprendizaje por imitación estable. Preimpresión de arXiv: 1804.04878 (2018). http://arxiv.org/abs/1804.04878v1
Amos, B., Xu, L. y Kolter, JZ Redes neuronales convexas de entrada. En Precup, D. & Teh, YW (eds.) Actas de la 34ª Conferencia Internacional sobre Aprendizaje Automático, vol. 70 de Proceedings of Machine Learning Research, 146–155 (PMLR, Centro Internacional de Convenciones, Sydney, Australia, 2017). http://proceedings.mlr.press/v70/amos17b.html
Kolter, JZ y Manek, G. Aprendizaje de modelos estables de dinámica profunda. En Wallach, H. et al. (eds.) Avances en los sistemas de procesamiento de información neuronal, vol. 32, 11128-11136 (Curran Associates, Inc., 2019). https://proceedings.neurips.cc/paper/2019/file/0a4bbceda17a6253386bc9eb45240e25-Paper.pdf
Hoffman, J., Roberts, DA y Yaida, S. Aprendizaje robusto con regularización jacobiana. Preimpresión de arXiv: 1908.02729 (2019). http://arxiv.org/abs/1908.02729v1
Pan, S. y Duraisamy, K. Modelado predictivo a largo plazo de sistemas dinámicos no lineales utilizando redes neuronales. Complejidad 2018, 1–26 (2018).
Google Académico
Matthews, PC & Strogatz, SH Diagrama de fases para el comportamiento colectivo de osciladores de ciclo límite. Física. Rev. Lett. 65, 1701-1704 (1990).
Artículo ADS MathSciNet CAS Google Scholar
Aronson, D., Ermentrout, G. y Kopell, N. Respuesta de amplitud de osciladores acoplados. Physica D: fenómeno no lineal. 41, 403–449 (1990).
Artículo ADS MathSciNet Google Scholar
Rubin, J. & Terman, D. Actividad sincronizada y pérdida de sincronía entre osciladores condicionales heterogéneos. SIAM J. Aplicación. Sistema dinámico 1, 146-174 (2002).
Artículo ADS MathSciNet Google Scholar
Laing, CR, Zou, Y., Smith, B. y Kevrekidis, IG Gestión de la heterogeneidad en el estudio de la dinámica de los osciladores neuronales. J. Matemáticas. Neurociencias. 2, 5 (2012).
Artículo MathSciNet Google Scholar
Choi, M., Bertalan, T., Laing, C. y Kevrekidis, I. Reducción de dimensiones en redes neuronales heterogéneas: caos polinomial generalizado (gpc) y análisis de varianza (anova). EUR. Física. J. Temas especiales 225, 1165–1180 (2016).
ADS del artículo Google Scholar
Smith, LM, Chasnov, JR y Waleffe, F. Cruce de turbulencia bidimensional a tridimensional. Física. Rev. Lett. 77, 2467–2470 (1996).
Artículo ADS CAS Google Scholar
Zhang, K. & Jones, CA El efecto de la hiperviscosidad en los modelos de geodinamo. Geofís. Res. Letón. 24, 2869–2872 (1997).
ADS del artículo Google Scholar
Frisch, U. et al. Hiperviscosidad, truncamiento de Galerkin y cuellos de botella en la turbulencia. Física. Rev. Lett. 101, 144501 (2008).
ADS del artículo Google Scholar
Lee, S., Kooshkbaghi, M., Spiliotis, K., Siettos, CI y Kevrekidis, IG PDE de escala gruesa a partir de observaciones de escala fina mediante aprendizaje automático. Caos: Interdisciplina. J. Ciencia no lineal. 30, 013141 (2020).
Artículo MathSciNet Google Scholar
Li, J., Kevrekidis, PG, Gear, CW y Kevrekidis, IG Decidir la naturaleza de la ecuación burda mediante simulaciones microscópicas: el esquema del agua del baño del bebé. SIAM Rev. 49, 469–487 (2007).
Artículo MathSciNet Google Scholar
Erban, R. y col. Exploración sin variables de modelos estocásticos: un ejemplo de red reguladora de genes. J. química. Física. 126, 155103 (2007).
ADS del artículo Google Scholar
Chiavazzo, E., Gear, C., Dsilva, C., Rabin, N. y Kevrekidis, I. Modelos reducidos en cinética química mediante minería de datos no lineal. Procesos 2, 112-140 (2014).
Artículo CAS Google Scholar
Lee, K. & Carlberg, KT Reducción de modelos de sistemas dinámicos en variedades no lineales utilizando codificadores automáticos convolucionales profundos. J. Computación. Física. 404, 108973 (2020).
Artículo MathSciNet Google Scholar
Sonday, BE, Haataja, M. & Kevrekidis, IG Análisis grueso de la dinámica de una interfaz impulsada en presencia de impurezas móviles: descripción efectiva mediante mapas de difusión. Física. Rev.E 80, 031102 (2009).
ADS del artículo Google Scholar
Frewen, TA y cols. Dinámica colectiva burda de grupos de animales, 299-309. Apuntes de conferencias sobre ingeniería y ciencias computacionales (Springer Berlin Heidelberg, 2010). https://doi.org/10.1007/978-3-642-14941-2_16
Meila, M., Koelle, S. y Zhang, H. Un enfoque de regresión para explicar múltiples coordenadas de incrustación. Preimpresión de arXiv: 1811.11891 (2018). 1811.11891.
Dsilva, CJ, Talmon, R., Coifman, RR y Kevrekidis, IG Representación parsimoniosa de sistemas dinámicos no lineales a través del aprendizaje múltiple: un estudio de caso de quimiotaxis. Aplica. Computadora. Anal armónico. 44, 759–773 (2018).
Artículo MathSciNet Google Scholar
Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de alto rendimiento y estilo imperativo. En Wallach, H. et al. (eds.) Avances en sistemas de procesamiento de información neuronal 32, 8024-8035 (Curran Associates, Inc., 2019). http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf
Kingma, DP & Ba, J. Adam: Un método de optimización estocástica. Preimpresión de arXiv: 1412.6980 (2017). 1412.6980.
Coifman, RR y Lafon, S. Armónicos geométricos: una nueva herramienta para la extensión de funciones empíricas fuera de muestra a múltiples escalas. Aplica. Computadora. Anal armónico. 21, 31–52 (2006).
Artículo MathSciNet Google Scholar
Bertalan, T., Kevrekidis, GA, Mishra, D. y Kevrekidis, IG Sobre la interacción entre el aprendizaje automático y la buena formulación de los problemas. En la preparación de.
Taylor, MACouple, double, toil and problem: comportamiento dinámico de sistemas de reacción oscilatoria acoplados. Doctor. tesis, Universidad de Princeton, Princeton, Nueva Jersey (1992).
Dormand, J. & Prince, P. Una familia de fórmulas runge-kutta integradas. J. Computación. Aplica. Matemáticas. 6, 19-26 (1980).
Artículo MathSciNet Google Scholar
Descargar referencias
Este trabajo fue apoyado parcialmente por la Oficina de Investigación del Ejército de EE. UU. (a través de un programa MURI), DARPA y el Departamento de Energía de EE. UU. (IGK, FPK, TB, TT).
Departamento de Ingeniería Química y Biomolecular, Escuela de Ingeniería Whiting, Universidad Johns Hopkins, 3400 North Charles Street, Baltimore, MD, 21218, EE. UU.
Felix P. Kemeth, Tom Bertalan y Ioannis G. Kevrekidis
Departamento de Ingeniería Química y Biológica, Universidad de Princeton, Princeton, Nueva Jersey, 08544, EE. UU.
Thomas Thiem y Sung Joon Moon
Departamento de Informática, Escuela de Computación, Información y Tecnología, Universidad Técnica de Munich, Boltzmannstr. 3, 85748, Garching, Alemania
Félix Dietrich
Facultad de Ciencias Naturales y Computacionales, Universidad Massey (Albany), Private Bag, 102-904, Auckland, Nueva Zelanda
Carlo R. Laing
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
IGK concibió la investigación, que fue planificada conjuntamente con todos los autores. FPK realizó gran parte de la investigación, con contribuciones de TB, TT, FD, SJM y CRLFPK e IGK escribió inicialmente el manuscrito, que fue editado en forma final con contribuciones de todos los autores.
Correspondencia a Ioannis G. Kevrekidis.
Los autores declaran no tener conflictos de intereses.
Nature Communications agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores pares están disponibles.
Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Kemeth, FP, Bertalan, T., Thiem, T. et al. Aprendizaje de ecuaciones diferenciales parciales emergentes en un espacio emergente aprendido. Nat Comuna 13, 3318 (2022). https://doi.org/10.1038/s41467-022-30628-6
Descargar cita
Recibido: 23 de diciembre de 2020
Aceptado: 09 de mayo de 2022
Publicado: 09 de junio de 2022
DOI: https://doi.org/10.1038/s41467-022-30628-6
Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:
Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.
Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt
Revista de biología matemática (2023)
Revista china de ciencia de polímeros (2022)
Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.