¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

Sam Witty dio una gran respuesta, así que me enfocaré en una parte diferente de la pregunta.

los libros de aprendizaje profundo parecen implicar que las muestras solo son útiles para aproximar suma / integrales y cuando el objetivo es generar muestras en sí.

Esas son motivaciones poderosas y estoy hablando 100% en serio. Poderoso.

En primer lugar, todas las probabilidades que nos puedan interesar pueden expresarse en términos de sumas o integrales. Mediante el uso de la teoría de la probabilidad y los procesos estocásticos, podemos averiguar cuándo se pueden estimar a partir de muestras y cómo generar las muestras.

¿Sabes lo que puedes hacer una vez que tienes probabilidades? Casi cualquier cosa.

  1. Con probabilidades, puede decidir si es probable que un animal sea un gato o un perro.
  2. ¿Qué posibilidades hay de que este medicamento contra el cáncer provoque complicaciones?
  3. ¿Lloverá mañana o no?
  4. ¿Este componente es bueno para este motor o no?

etcétera etcétera.

Pero las sumas y las integrales son más que probabilidades. También pueden representar áreas / volúmenes en algún espacio de alta dimensión. O el resultado de la evolución de un sistema con ruido de alguna condición inicial, como sucede cuando usamos ecuaciones diferenciales estocásticas: no puede resolverlas numéricamente sin alguna forma de muestreo.

Si puede estimar sumas e integrales, puede resolver muchos problemas y el muestreo es una de las formas más poderosas de hacerlo.

Una vez que tenga suficientes muestras, incluso puede reproducir elementos de la distribución utilizada para generarlos: su media, su varianza, momentos más altos, una aproximación de su función de densidad de probabilidad (o función de masa, si la distribución es discreta).

La incertidumbre parece estar integrada en muchos aspectos de nuestro mundo y los modelos más útiles en física, matemáticas, informática, finanzas, etc., incorporan esta incertidumbre mediante el uso de la teoría de la probabilidad, los procesos estocásticos y las estadísticas. El muestreo es lo que hace que muchas aplicaciones en esos dominios sean prácticas.


Por cierto, ha habido un montón de preguntas sobre muestreo motivadas por libros de aprendizaje profundo; esto me hace feliz. Solo tenga en cuenta que el muestreo probabilístico también se usa ampliamente fuera de las redes neuronales, por ejemplo, en física estadística, estadística clásica, solución numérica de ecuaciones diferenciales estocásticas, etc.

La respuesta corta es que realmente no sabemos qué hacer con las distribuciones de probabilidad sin usar métodos de muestreo.

Por ejemplo, si te doy una distribución posterior sobre algunos parámetros del modelo y quieres usar esa distribución para hacer predicciones, ¿qué haces? Puedes hacer una de tres cosas.

  1. Integrar en toda la distribución.
  2. Use el estimado de MAP.
  3. Muestra de la parte posterior y deje que las muestras individuales “voten” sobre la respuesta correcta.

La opción 1 puede ser computablemente intratable, la opción 2 no le dará la respuesta correcta cuando la distribución es plana o multimodal, y la opción 3 puede ser bastante lenta. Lo que debe elegir depende del problema.

De hecho, muchas veces es posible obtener muestras de una distribución, incluso si no puede escribir una representación de la distribución en forma cerrada.

El muestreo es especialmente útil si desea conectar modelos probabilísticos con simulaciones deterministas u otros modelos que, de otro modo, excepto las representaciones deterministas del entorno.

Generar muestras de modelos probabilis debería ser una práctica estándar. De lo contrario, está haciendo inferencias sobre la base de un tamaño de muestra de uno.

More Interesting

MLconf 2015 Seattle: ¿Cómo funciona la técnica de aproximación simbólica agregada (SAX)?

¿Cuáles son las aplicaciones más prometedoras de ML / AI en el cuidado de la salud, excluyendo la informática de imágenes?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Cuáles son las principales aplicaciones de aprendizaje profundo en centros de datos?

¿Debería considerarse un experto en aprendizaje automático después de completar la clase de ML del profesor Andrew en Coursera?

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

¿Cuál es la mejor técnica de aprendizaje automático para clasificar ~ 50,000 imágenes sin etiquetar (2-3% de ruido) en 3 clases diferentes?

¿Cómo puede un estudiante graduado de primer año en ciencias de la computación encontrar un trabajo en minería y análisis de datos después de graduarse?

¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?

Dado el número de heurísticas arbitrarias involucradas, ¿por qué deberíamos tener tanta fe en las redes neuronales profundas?

¿Cómo deberías comenzar una carrera en aprendizaje profundo?

¿Cómo se diseñan y desarrollan las nuevas arquitecturas de aprendizaje profundo?

¿Cuándo puede el aprendizaje profundo ser una herramienta inadecuada para una empresa?

¿Cuál es la diferencia entre el paralelismo del modelo y el paralelismo de datos?