¿Qué es un “conjunto típico” en la estimación de densidad de probabilidad para la inferencia bayesiana?

No estoy seguro de a qué estimación de densidad de probabilidad se refiere.

Los problemas de inferencia en bayesiano son poco diferentes de los del enfoque clásico. Mientras que las ofertas clásicas con la estimación puntual, como las estimaciones de máxima verosimilitud (MLE) para el parámetro ‘w’ en cuestión, el enfoque bayesiano comienza con una densidad de probabilidad p (w) para w. Que p (w) se conoce de un estudio previo, empíricamente o por suposición. Entonces, w varía con esta densidad de probabilidad “anterior” p (w) dentro de un cierto rango de variación. Luego, se necesita saber qué sucede con esa densidad después de tomar una muestra de tamaño n de la variable x, en estudio, y tratar de encontrar la estimación de ese parámetro. Obviamente, una estimación puntual no será aplicable en base a la idea de que w es una cantidad fija. Por lo tanto, uno debe tener otro criterio para definir qué tipo de estimación, w * sería aceptable. Aquí es donde entra en juego el concepto de ‘Función de pérdida’. Hay varios tipos de funciones de pérdida que están en uso. La más común es la función de pérdida “Error cuadrado”. Una estimación que proporciona la función de pérdida mínima esperada es la estimación deseable. Entonces, minimizar la función de pérdida esperada en lugar de maximizar la probabilidad. La función de pérdida esperada también se conoce como el riesgo de Baye. La expresión final de Baye’s Risk debe ser minimizada, por la regla del cálculo, igualando su primer diferencial a cero.

Hay pasos en el enfoque bayesiano. El primer paso es tener la Densidad de probabilidad previa p (w), y este ha sido un área de debate difícil durante mucho tiempo. ¿Cómo asumir un previo apropiado? Debido a que para avanzar en la estimación, también necesitará la densidad posterior p (w) # donde se usará la regla de Bayes para derivarla usando la p (w). Si se trata de una variable continua, estos pasos implicarán algunas integraciones. Solo, entonces puede estimar el parámetro. Se ha trabajado mucho para simplificar las complejidades matemáticas que uno enfrenta. Por lo tanto, le aconsejaría que comience a leer sobre conceptos bayesianos.

Estoy excluyendo algunos conceptos más que uno necesitará, tales como “Estadísticas suficientes”, Prioridades invariantes y la familia de las distribuciones conjugadas naturales. Además, hay muchas más caracterizaciones de las estimaciones bayesianas en términos de límites de confianza y otros criterios.

Michael Betancourt ha escrito un magnífico artículo que analiza esto y mucho más: https://arxiv.org/pdf/1701.02434

La idea general es que el conjunto típico es un área de probabilidad bastante alta. En problemas de baja dimensión, puede ignorar cosas fuera del conjunto típico.

PERO … en aplicaciones reales de alta dimensión, esto sería un gran error. Consideremos por qué.

Supongamos que le digo que tengo una densidad en [0, 3], y la altura en [1, 2] es un billón de veces mayor que el resto. Para todos los efectos, puede ignorar todo lo que esté fuera de [1, 2]. En inferencia bayesiana, sería muy poco probable que muestree puntos fuera de [1, 2] utilizando algoritmos MCMC estándar. Y eso estaría bien.

También estaría bien en dos dimensiones, donde se ignora 8/9 del espacio, porque la densidad es un cuadrillonésima más alta allí, y eso es mucho más que 9. Pero ¿qué pasa con 10 dimensiones? Bueno, nos estamos centrando en (1/3) ^ 10 del espacio, o 1 parte en 60,000. Todavía nada en comparación con un billón.

Pero en 100 dimensiones, aún no muy grandes, nos estamos centrando en una parte en … 5e + 47. La diferencia de un billón de altura es NADA en comparación con esto … sin embargo, MCMC probablemente lo ignorará. Y todas las respuestas a las expectativas estarían descabelladas si la función con la que estamos computando está en gran medida fuera del conjunto “típico” de alta densidad.

Pero lea el periódico de Michael. Es hermoso y explica todo esto mucho mejor que yo.