Gracias por el A2A Badrinath, ¡es una muy buena pregunta! Creo que la respuesta de Connor Davis lo cubre bastante bien.
Recuerdo haberme preguntado esto cuando era estudiante. Principalmente se reduce al hecho de que dos interpretaciones diferentes de optimización en ML surgieron a lo largo de su historia:
- Minimizar una función de costo / error: Básicamente, usted formula su problema de LD en términos de reducir alguna noción de costo o error . Algunas funciones de costo comunes que se utilizan incluyen el error cuadrático medio, el error absoluto medio y el error de entropía cruzada. Al minimizar este error, su modelo se vuelve mejor para predecir lo que se supone que debe predecir.
- Maximización de una función de probabilidad: esto generalmente aparece cuando se trabaja con modelos probabilísticos de ML. Suponemos que el conjunto de entrenamiento fue generado por alguna distribución desconocida. Luego tratamos de modelar esta distribución desconocida maximizando una función de probabilidad sobre las observaciones en el conjunto de entrenamiento.
Mi sentido general es que (1) vino antes que (2) (ver la literatura de optimización en informática). (2) solo surgió cuando las personas comenzaron a dibujar las conexiones entre el aprendizaje automático y las estadísticas.
- ¿Almacenar varias claves por nodo, como en B, B + Árboles, es un concepto válido?
- ¿Cuáles son los libros que deben leer para los estudiantes de Ciencias de la Computación que desean trabajar en nuevas empresas web?
- ¿Qué está vendiendo IBM ahora?
- ¿Cuáles son las principales diferencias entre el motor de búsqueda y la base de datos?
- ¿Cómo se almacenan y recuperan los datos en un disco?
(1) también puede invertirse en términos de maximizar alguna noción de “bondad” (por ejemplo, una función de recompensa), pero esta interpretación no es tan común, excepto en el aprendizaje por refuerzo.
Espero que esto ayude.