Antes de que el aprendizaje automático se formara como un campo, los físicos necesitaban herramientas para construir modelos de procesos naturales a partir de observaciones.
Con el desarrollo de la termodinámica y la mecánica estadística, los físicos comenzaron a usar macromodelos, sustituyendo innumerables microparámetros (como las velocidades individuales de las moléculas) con unos pocos macroparámetros que caracterizan bastante bien el estado general de la materia (como la presión y la temperatura). La relación entre estos parámetros se describe mediante distribuciones de probabilidad y las propiedades de distribuciones especiales. El mismo principio se usó más tarde en el aprendizaje automático para inferir patrones generales a partir de puntos de datos (la regresión a la media es la herramienta más básica que surgió de la inferencia estadística).
Estos tres tipos lo hicieron todo posible: James Maxwell, Ludwig Boltzmann y Josiah Gibbs, creadores de mecánica estadística que hicieron la conexión entre las propiedades estadísticas (léase: macro) de sistemas complejos y propiedades similares de las partículas que las componen.
- ¿Qué es el etiquetado gráfico?
- ¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?
- ¿Qué significa decir que dos clasificadores son independientes?
- ¿Cuál es la diferencia entre un conjunto de datos y una característica?
- ¿Cómo una red neuronal artificial calcula su salida?
Además de eso, el análisis funcional, muy utilizado en física, permitió a los matemáticos derivar las fórmulas para minimizar las funciones de pérdida. ¿Ves la conexión? La mecánica estadística describe cuán lejos está su hipótesis de sus observaciones en promedio, el análisis funcional describe cómo prueba una hipótesis dada contra sus datos de manera rigurosa. Describe la distancia entre dos funciones, que, esencialmente, es todo lo que necesita.
Cualquier sistema que consiste en un conjunto finito de partículas tiene un conjunto finito de estados. Esta idea es muy útil en termodinámica y se convirtió en uno de los conceptos centrales en el aprendizaje automático. La transición entre estados requiere la transformación de la energía: puede gastar algo de energía externa para traer más orden al sistema (al enfriarlo) o puede extraer energía al provocar el caos (prendiendo fuego a todo). Por lo tanto, algunos grupos de estados tienen mayores probabilidades que los demás. Voila: puede saber qué tan bueno es su modelo al estimar cuánta energía necesita para hacer la transición entre su modelo y el estado real (sus datos).
Por cierto, la famosa función softmax ampliamente utilizada en la clasificación y los modelos recurrentes se deriva de la distribución de Gibbs.
Históricamente, los mejores cuantos y algunos de los mejores investigadores de ML (antes de que comenzaran a venir de CS) eran ex físicos. Simplemente porque el modelado estadístico es su pan de cada día.
Es seguro decir que el aprendizaje automático fue descubierto por físicos y actualizado por programadores, lo que parece ser un orden de cosas bastante natural.