En el aprendizaje automático, ¿por qué un problema de maximización se convierte en un problema de minimización?

Gracias por el A2A Badrinath, ¡es una muy buena pregunta! Creo que la respuesta de Connor Davis lo cubre bastante bien.

Recuerdo haberme preguntado esto cuando era estudiante. Principalmente se reduce al hecho de que dos interpretaciones diferentes de optimización en ML surgieron a lo largo de su historia:

  1. Minimizar una función de costo / error: Básicamente, usted formula su problema de LD en términos de reducir alguna noción de costo o error . Algunas funciones de costo comunes que se utilizan incluyen el error cuadrático medio, el error absoluto medio y el error de entropía cruzada. Al minimizar este error, su modelo se vuelve mejor para predecir lo que se supone que debe predecir.
  2. Maximización de una función de probabilidad: esto generalmente aparece cuando se trabaja con modelos probabilísticos de ML. Suponemos que el conjunto de entrenamiento fue generado por alguna distribución desconocida. Luego tratamos de modelar esta distribución desconocida maximizando una función de probabilidad sobre las observaciones en el conjunto de entrenamiento.

Mi sentido general es que (1) vino antes que (2) (ver la literatura de optimización en informática). (2) solo surgió cuando las personas comenzaron a dibujar las conexiones entre el aprendizaje automático y las estadísticas.

(1) también puede invertirse en términos de maximizar alguna noción de “bondad” (por ejemplo, una función de recompensa), pero esta interpretación no es tan común, excepto en el aprendizaje por refuerzo.

Espero que esto ayude.

Como otros han dicho, es una convención de biblioteca. Si todo es una rutina de minimización, entonces no tiene que leer la documentación para saber si una rutina determinada está tratando de minimizar o maximizar lo que pasa.

Creo que decidirse por un tipo de operación será una buena opción a largo plazo. Es muy probable que la teoría de optimización esté relacionada con la geometría tropical, y en esa rama particular de las matemáticas, solo obtienes una de min o max. Entonces, lo que hacemos ahora encajará en desarrollos teóricos posteriores mejor de lo que hubiera sido si no hubiéramos elegido una dirección estándar.

Es solo una convención de la comunidad de optimización. Minimizar una función es equivalente a maximizar su negación, por lo que las personas se han resuelto arbitrariamente (por lo general) problemas de optimización de marcos en términos de minimización sin pérdida de generalidad. Esto mantiene la notación consistente y elimina la necesidad de decir cosas como “si estamos maximizando, haga esto, y si estamos minimizando, haga eso”.

Absolutamente puede mantenerlo como un problema de maximización y usar el ascenso de gradiente. Las matemáticas son idénticas hasta voltear algunos signos.

Es una práctica estándar hacer minimización simplemente por convención. A menudo te facilitará la vida porque la mayoría de las bibliotecas no te harán adivinar si su procedimiento de optimización es minimización o maximización. Para sus propias implementaciones que nadie más usará, realmente no importa.

Es solo una convención minimizar en lugar de maximizar.

Cuando diseña un algoritmo de optimización en papel, generalmente establece una función (como: “f (x)”) y un objetivo (como: “encontrar xmin tal que f (xmin) sea el mínimo de f (x)” ) y luego sigues con tus derivaciones.

Muchos algoritmos se derivaron teniendo en cuenta esta convención y las implementaciones reflejan eso. Por lo tanto, cuando lo siga, es probable que se ahorre la molestia de tener que transformar funciones o parámetros cuando desee utilizar programas de optimización en su idioma favorito.

More Interesting

¿Se necesita la misma cantidad de recursos para que una máquina sume / multiplique dos números pequeños y dos grandes?

¿Cuáles son algunas de las características que ofrecen los motores de búsqueda como Bing, DuckDuckGo y Baidu, pero no Google?

¿Cuál es la diferencia entre un proceso y un hilo?

¿Cómo será influenciado Payments World por la inteligencia artificial y el aprendizaje automático?

¿Qué es mejor: CSE en Jamia Millia Islamia o matemáticas y computación en DTU?

¿Cuál es mejor CS en BIT mesra o CS en MNIT Jaipur?

¿Cuál es una explicación intuitiva del problema de 'explicación' en modelos gráficos dirigidos?

¿Cuál es el mejor algoritmo de aprendizaje automático para predecir el ganador del juego de fútbol basado en los puntajes pasados ​​de los equipos?

¿Qué es una máquina completa de Turing?

¿Por qué elegir la estructura de datos incorrecta hace que un programa sea ineficiente?

Si un informático se despertara en el año 1500, ¿cuánto tiempo les tomaría construir una computadora con estándares modernos?

¿Asistir a un campamento de entrenamiento (lHackReactor, DevMountain, etc.) es una buena manera de encontrar un trabajo relacionado con CS cuando viene de un país extranjero (es decir, Filipinas)?

¿Cuáles son algunos de los problemas de investigación abierta más interesantes en los sistemas de archivos?

¿Cómo pueden la IA y el aprendizaje automático ayudar a llevar la inclusión social a la India?

¿Qué opinas sobre TensorFlow o cualquier otra herramienta de aprendizaje profundo?