¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?

Digamos que estás haciendo estadísticas bayesianas para una situación de Bernoulli. Hay una probabilidad desconocida [matemáticas] p [/ matemáticas] de éxito y [matemáticas] 1-p [/ matemáticas] de fracaso.

Probablemente hará que su distribución previa en [math] p [/ math] sea una distribución Beta porque las distribuciones Beta son anteriores conjugadas para esta situación.

Si no tiene información sobre [matemática] p [/ matemática], tomará la [matemática] B (\ alpha, \ beta) [/ matemática] anterior como [matemática] B (1,1) [/ matemática ], una distribución uniforme en el intervalo de la unidad. O puede tomarlo como [matemáticas] B (\ frac12, \ frac12) [/ matemáticas] o incluso [matemáticas] B (0,0) [/ matemáticas] que en realidad no es una distribución, sino que se convierte en una después de un par de observaciones. Lo que tome no importará mucho después de 10 observaciones. Si tiene siete éxitos y tres fracasos, la parte posterior que obtenga si comienza con [matemáticas] B (1,1) [/ matemáticas] será [matemáticas] B (8,4) [/ matemáticas]. (Simplemente agregue los éxitos a [math] \ alpha [/ math] y los fracasos a [math] \ beta [/ math].) Si hubiera comenzado con [math] B (0,0) [/ math], la parte posterior será [matemáticas] B (7,3) [/ matemáticas]. Estas dos distribuciones Beta son muy similares.

Ahora suponga que tiene mucha información sobre [matemáticas] p [/ matemáticas]. Es posible que sepa de pruebas anteriores para situaciones similares (como lanzar monedas reales) que [matemática] p [/ matemática] estará cerca de 0.5 y casi seguramente dentro de 0.2 de 0.5. Eso sugiere una media [matemática] \ mu = 0.5 [/ matemática] para [matemática] p [/ matemática] y una desviación estándar de [matemática] \ sigma = 0.1 [/ matemática] (o menos). La distribución Beta [matemática] B (12,12) [/ matemática] tiene esa media y desviación estándar, por lo que puede hacer que su distribución previa en [matemática] p [/ matemática]. Esa es la misma cantidad de información que obtendría si realizara 24 pruebas con 12 éxitos y 12 fracasos. Si realmente hiciste 24 ensayos más, la información del anterior todavía está allí, pero solo la mitad de fuerte. Si haces 100 más, se diluye bastante.

Aquí está la función de densidad para [matemáticas] B (12,12) [/ matemáticas]. Es prácticamente una distribución normal con media [matemática] \ mu = 0.5 [/ matemática] y una desviación estándar de [matemática] \ sigma = 0.1. [/ Matemática]

Aprendizaje automáticoCiencia de datosEstadísticaProbabilidad