¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?

Digamos que estás haciendo estadísticas bayesianas para una situación de Bernoulli. Hay una probabilidad desconocida [matemáticas] p [/ matemáticas] de éxito y [matemáticas] 1-p [/ matemáticas] de fracaso.

Probablemente hará que su distribución previa en [math] p [/ math] sea una distribución Beta porque las distribuciones Beta son anteriores conjugadas para esta situación.

Si no tiene información sobre [matemática] p [/ matemática], tomará la [matemática] B (\ alpha, \ beta) [/ matemática] anterior como [matemática] B (1,1) [/ matemática ], una distribución uniforme en el intervalo de la unidad. O puede tomarlo como [matemáticas] B (\ frac12, \ frac12) [/ matemáticas] o incluso [matemáticas] B (0,0) [/ matemáticas] que en realidad no es una distribución, sino que se convierte en una después de un par de observaciones. Lo que tome no importará mucho después de 10 observaciones. Si tiene siete éxitos y tres fracasos, la parte posterior que obtenga si comienza con [matemáticas] B (1,1) [/ matemáticas] será [matemáticas] B (8,4) [/ matemáticas]. (Simplemente agregue los éxitos a [math] \ alpha [/ math] y los fracasos a [math] \ beta [/ math].) Si hubiera comenzado con [math] B (0,0) [/ math], la parte posterior será [matemáticas] B (7,3) [/ matemáticas]. Estas dos distribuciones Beta son muy similares.

Ahora suponga que tiene mucha información sobre [matemáticas] p [/ matemáticas]. Es posible que sepa de pruebas anteriores para situaciones similares (como lanzar monedas reales) que [matemática] p [/ matemática] estará cerca de 0.5 y casi seguramente dentro de 0.2 de 0.5. Eso sugiere una media [matemática] \ mu = 0.5 [/ matemática] para [matemática] p [/ matemática] y una desviación estándar de [matemática] \ sigma = 0.1 [/ matemática] (o menos). La distribución Beta [matemática] B (12,12) [/ matemática] tiene esa media y desviación estándar, por lo que puede hacer que su distribución previa en [matemática] p [/ matemática]. Esa es la misma cantidad de información que obtendría si realizara 24 pruebas con 12 éxitos y 12 fracasos. Si realmente hiciste 24 ensayos más, la información del anterior todavía está allí, pero solo la mitad de fuerte. Si haces 100 más, se diluye bastante.

Aquí está la función de densidad para [matemáticas] B (12,12) [/ matemáticas]. Es prácticamente una distribución normal con media [matemática] \ mu = 0.5 [/ matemática] y una desviación estándar de [matemática] \ sigma = 0.1. [/ Matemática]

A veces lo hace. En algunos problemas, necesita más datos de los que puede recopilar de manera realista para tener una conclusión que no es principalmente lo que diría el anterior. En otros problemas, incluso si su anterior asigna probabilidad positiva a una región que contiene el valor verdadero de un parámetro, la probabilidad de que su posterior converja a esa región es cero si comienza demasiado lejos.

En buenos problemas, lo anterior se inunda de datos rápidamente. Los problemas que estudias en una clase introductoria sobre estadísticas bayesianas tienden a ser muy agradables. Los problemas en el mundo real a menudo no lo son.

Recuerde que la distribución previa es una estimación, a veces solo una suposición. Si los datos reales finalmente no determinaran la respuesta, habría algo mal con las estadísticas bayesianas.

La cantidad de datos que toma y cuánto se modifica la distribución anterior depende de qué tan cerca estaba la distribución anterior de la realidad y qué tan ruidosos son los datos.

Umm … ¿Porque tenemos muchos datos?

Sin entrar en detalles matemáticos, la esencia de las estadísticas bayesianas es que cierta distribución previa es modificada por los datos. Si tenemos muchos datos, entonces hay, potencialmente, modificaciones extremas a lo anterior. Pero también depende de cuán firmemente creamos nuestros antecedentes