Tienes la relación al revés, en cierto modo, pero bien hecho por notarlo.
Nota: no te asustes si no entiendes algo de lo siguiente de inmediato. Estás empezando. Aprenderás. Me estoy saltando algunos ejemplos, y algunas cosas no están tan bien explicadas como me gustaría, porque mi tiempo es limitado en este momento.
Esos documentos de optimización tienen que ver con la optimización en ML. Y ML se basa en gran medida en el pensamiento probabilístico. No completamente, pero muchas veces trabajamos, explícita o implícitamente, con probabilidades. Lo que a menudo se hace es optimizar las distribuciones de probabilidad con respecto a los datos para obtener un algoritmo de aprendizaje que se generalice bien a los datos nuevos.
- En C, el nombre de la matriz denota la dirección del elemento cero de la matriz. ¿Es esto solo una regla, o tiene alguna razón asociada?
- ¿Es posible que el modelo de espacio vectorial que utilizamos para entrenar algoritmos de aprendizaje automático sea inadecuado para la representación del aprendizaje humano?
- ¿Cómo funciona el algoritmo what3words?
- ¿Qué estructura de datos se usa para llenar una pila?
- ¿Podría alguien explicar las etapas de un algoritmo recursivo que muestra cómo se alcanza la condición de terminación?
Digamos que está tratando de clasificar diferentes imágenes. Al entrenar a nuestro clasificador, tratamos, a menudo, con una clase a la vez, pero (a menos que estemos trabajando con clasificadores de vectores de soporte) el lenguaje que hacemos puede describirse probabilísticamente. (Las redes neuronales, como ejemplo, no siempre usan este lenguaje implícitamente, pero los SVC son el único algoritmo en el que puedo pensar en este momento que es muy difícil formular el algoritmo de manera probabilística).
Y cuando estamos probando nuestro algoritmo en nuevas imágenes, a menudo tenemos la salida como un conjunto de probabilidades, y elegimos la más grande.
Sin embargo, eso no es de lo que hablan los periódicos. Podríamos, por ejemplo, describir nuestro espacio de hipótesis (de donde sacamos nuestros algoritmos de clasificación, por ejemplo) como un conjunto de distribuciones de probabilidad. Maximizamos la función de probabilidad (log) (construida a partir de una distribución de probabilidad) con respecto a los datos para obtener, para cada parámetro de la distribución, el MLE (estimación de máxima probabilidad) de ese parámetro. Con suerte, esto nos da un buen punto para predecir.
Hay otras formas de usar distribuciones de probabilidad, como el enfoque bayesiano, que integra la parte posterior (antes de la probabilidad) para obtener la media posterior como una estimación alternativa al modo (máximo), aunque si ve la palabra MAP, es hablando del modo posterior. A veces usamos el modo como un sustituto de la media, ya que si la distribución se comporta bien (no siempre es la mejor suposición), esto es algo razonable.
Por supuesto, hay otras interpretaciones de su solicitud, dependiendo de lo que esté leyendo. A veces, cuando estamos optimizando, lo hacemos de forma estocástica (con componentes aleatorios), pero eso rara vez se describe utilizando distribuciones de probabilidad.