¿Cuál es el vínculo entre los algoritmos de optimización y las distribuciones de probabilidad?

Tienes la relación al revés, en cierto modo, pero bien hecho por notarlo.

Nota: no te asustes si no entiendes algo de lo siguiente de inmediato. Estás empezando. Aprenderás. Me estoy saltando algunos ejemplos, y algunas cosas no están tan bien explicadas como me gustaría, porque mi tiempo es limitado en este momento.

Esos documentos de optimización tienen que ver con la optimización en ML. Y ML se basa en gran medida en el pensamiento probabilístico. No completamente, pero muchas veces trabajamos, explícita o implícitamente, con probabilidades. Lo que a menudo se hace es optimizar las distribuciones de probabilidad con respecto a los datos para obtener un algoritmo de aprendizaje que se generalice bien a los datos nuevos.

Digamos que está tratando de clasificar diferentes imágenes. Al entrenar a nuestro clasificador, tratamos, a menudo, con una clase a la vez, pero (a menos que estemos trabajando con clasificadores de vectores de soporte) el lenguaje que hacemos puede describirse probabilísticamente. (Las redes neuronales, como ejemplo, no siempre usan este lenguaje implícitamente, pero los SVC son el único algoritmo en el que puedo pensar en este momento que es muy difícil formular el algoritmo de manera probabilística).

Y cuando estamos probando nuestro algoritmo en nuevas imágenes, a menudo tenemos la salida como un conjunto de probabilidades, y elegimos la más grande.

Sin embargo, eso no es de lo que hablan los periódicos. Podríamos, por ejemplo, describir nuestro espacio de hipótesis (de donde sacamos nuestros algoritmos de clasificación, por ejemplo) como un conjunto de distribuciones de probabilidad. Maximizamos la función de probabilidad (log) (construida a partir de una distribución de probabilidad) con respecto a los datos para obtener, para cada parámetro de la distribución, el MLE (estimación de máxima probabilidad) de ese parámetro. Con suerte, esto nos da un buen punto para predecir.

Hay otras formas de usar distribuciones de probabilidad, como el enfoque bayesiano, que integra la parte posterior (antes de la probabilidad) para obtener la media posterior como una estimación alternativa al modo (máximo), aunque si ve la palabra MAP, es hablando del modo posterior. A veces usamos el modo como un sustituto de la media, ya que si la distribución se comporta bien (no siempre es la mejor suposición), esto es algo razonable.

Por supuesto, hay otras interpretaciones de su solicitud, dependiendo de lo que esté leyendo. A veces, cuando estamos optimizando, lo hacemos de forma estocástica (con componentes aleatorios), pero eso rara vez se describe utilizando distribuciones de probabilidad.

En el aprendizaje automático, comenzamos con datos e intentamos aprender un modelo. A menudo hay suficiente ganancia de información cuando se asume y se ajusta a un modelo de probabilidad apropiado que cuando se comienza en blanco. Dado que la naturaleza del problema es estadística, las técnicas como el recocido simulado y el descenso de gradiente estocástico tienden a funcionar más rápido con tales incertidumbres. Por ejemplo, en el recocido simulado, la temperatura alta inicial evita quedar atrapada en los mínimos locales, y la eventual disminución de la temperatura casi garantiza la convergencia en un problema bien formulado. Una advertencia: no siempre funciona, y existe una compensación entre el tiempo computacional y la probabilidad de alcanzar una solución óptima (o lo suficientemente óptima). En el muestreo de Gibbs, se puede garantizar la convergencia, pero es necesario trabajar con la velocidad de convergencia y, dependiendo del espacio del problema, puede ser más eficiente que los algoritmos de muestreo simples.