¿Reemplazarán el aprendizaje automático y la ciencia de datos ecuaciones diferenciales y modelos matemáticos para problemas del mundo real?

Para responder a esta pregunta, necesito dos personajes de ficción: llamémoslos Trey y Matt.

Trey es un científico de datos y Matt, un matemático. A ambos se les pide que resuelvan un problema de predicción simple utilizando el conjunto de datos que se muestra a continuación:

Los datos aquí, tomados de este estudio, consisten en 6 pares de entrada / salida correspondientes al nivel de población normalizado (salida, eje vertical) de un tipo particular de bacteria en condiciones de laboratorio espacialmente restringidas versus tiempo (entrada, eje horizontal) trazadas en 3 -hora incrementos en un período de 15 horas. Se les pide a Trey y Matt que predigan el nivel poblacional de bacterias en la marca de 24 horas.

Trey, como científico de datos, ve esto como un problema de regresión y ajusta un polinomio de segundo grado a los datos (después de realizar la validación cruzada), que parece representar adecuadamente los datos.

Matt, por otro lado, intenta formular este problema en términos de una ecuación diferencial. Denotando la función de población deseada [matemáticas] f [/ matemáticas] y el nivel máximo de población como [matemáticas] C [/ matemáticas], supone que la tasa de crecimiento de la población [matemáticas] \ frac {df} {dt} [/ matemáticas] en cualquier momento [matemática] t [/ matemática], debe ser proporcional tanto al nivel de población actual [matemática] f [/ matemática] como a la capacidad restante que queda en el sistema [matemática] Cf [/ matemática]. Juntos, esto da la ecuación diferencial [matemáticas] \ frac {df} {dt} = \ alpha f (Cf) [/ matemáticas], cuya solución está dada por

[matemáticas] f (t) = \ frac {C} {1 + (\ frac {C} {f (0)} – 1) e ^ {- \ alpha Ct}} [/ matemáticas],

conocida como la función logística , un nombre acuñado por el matemático del siglo XIX PF Verhulst, quien propuso por primera vez esta ecuación diferencial en su búsqueda de modelar el crecimiento de la población.

Después de algunos ajustes de parámetros, nuestro matemático Matt, propone su solución logística :

Ahora, ¿qué modelo crees que hace una predicción más precisa?

Afortunadamente, tenemos acceso al resto de los datos para descubrir:

¡Y el ganador es Matt!

Este ejemplo transmite un punto más amplio: el éxito / fracaso de los modelos de aprendizaje automático depende en gran medida de la cantidad y la calidad de los datos que podemos recopilar. Esto se debe a que los problemas de aprendizaje supervisado (regresión y clasificación) no son más que problemas de aproximación de funciones con muestras ruidosas. En ambos casos, utilizamos datos para aproximar la función subyacente que generó esos datos. Cuantos más datos tengamos, mejor será nuestra aproximación. La superabundancia de datos actual es, de hecho, la razón más importante detrás del éxito de los modelos de aprendizaje profundo en ciertas áreas. Por el contrario, si no hay suficientes datos disponibles, uno no debería esperar que los modelos de aprendizaje automático funcionen bien.

Describir un fenómeno utilizando modelos matemáticos tiene una clara ventaja sobre el enfoque de aprendizaje automático: no se basa en datos (excepto quizás una pequeña cantidad para la verificación / ajuste de parámetros). El problema es que en muchas aplicaciones del mundo real nuestro conocimiento / intuición no es suficiente (todavía) para proponer modelos matemáticos. En estas circunstancias, no tenemos más remedio que adoptar enfoques de aprendizaje automático hasta que podamos obtener suficiente conocimiento para formar la teoría.

No. Sirven para diferentes propósitos.

Sin embargo, aquí hay una unión interesada:

https://www.google.com/url?sa=t&…