Lo anterior y lo posterior son parte del proceso de modelado en las estadísticas bayesianas. Aproximadamente:
- Tienes una creencia
- Ves los datos.
- Actualizas tu creencia.
Aquí hay un ejemplo de moneda más simple donde asumiremos que solo hay dos posibilidades:
- La moneda es justa.
- La moneda siempre da cara.
La moneda se puede modelar con una distribución de Bernoulli con el parámetro [matemática] p. [/ Matemática] Entonces, 1. corresponde a [matemática] p = 0.5 [/ matemática] y 2. a [matemática] p = 1 [/ matemática] .
- ¿La programación de Python es suficiente para el aprendizaje automático o deberíamos aprender R también?
- ¿Hay aplicaciones de IA en adquisiciones?
- ¿Es posible entrenar a un RNN en una sola secuencia extremadamente larga?
- ¿Cuánto del aprendizaje automático es en realidad solo optimización?
- ¿Cuál es la diferencia entre ML y NLP?
Antes de tirar la moneda, se podría pensar que es más probable que sea justa. Por ejemplo, podrías creer que:
[matemática] P (p = 0.5) = 0.8, P (p = 1) = 0.2. \ tag {1} [/ matemática]
Esta es tu creencia previa ; lo que crees que sucederá antes de ver los datos. Tenga en cuenta que esta creencia es subjetiva: otra persona podría pensar que es más probable que se cargue la moneda que de otra manera.
Luego, lanzo la moneda seis veces y cada vez que sucede obtengo una H. ¿Cómo cambiarán sus probabilidades sobre [matemáticas] p [/ matemáticas] ahora que tiene datos?
Bueno, la probabilidad de obtener una sola H. si conoce el parámetro p es:
[matemáticas] P (H. | p) = p. \ tag {2} [/ matemáticas]
Entonces, la probabilidad de obtener seis de ellos si conoce el valor del parámetro [math] p [/ math] (y debido a la independencia de los lanzamientos) es:
[matemáticas] (P (H. | p)) ^ 6 = p ^ 6. \ tag {3} [/ matemáticas]
OK, pero no sabe cuál es el parámetro [math] p [/ math], solo cree en cuáles deberían ser los valores. Por lo tanto, las estadísticas bayesianas le permiten actualizar su creencia a partir de los datos:
[matemática] P (p = 0.5 | \ text {Datos}) \ propto 0.5 ^ 6P (0.5) = 0.5 ^ 6 \ cdot 0.8 \ simeq 0.125 \ tag {4} [/ matemática]
y
[matemática] P (p = 1 | \ text {Datos}) \ propto 1 ^ 6 P (1) = 0.2 \ etiqueta {5} [/ matemática]
Esas no son probabilidades todavía, pero una vez que las normalice, obtendrá la probabilidad posterior, su creencia después de mirar los datos:
[matemática] P (p = 0.5 | \ text {Datos}) \ simeq 0.05, P (p = 1 | \ text {Datos}) \ simeq 0.94 \ tag {6} [/ matemática]
Entonces, ahora está casi seguro de que la moneda está cargada y esto se refleja en la distribución posterior.
Para resumir:
- Distribución previa : creencia subjetiva de que algo sucede antes de mirar los datos . Mientras no tenga demasiada confianza (y tenga suficientes datos), estará más o menos seguro al elegir los anteriores.
Para explicar la parte de “confianza”, imagine que en el ejemplo anterior eligió [matemática] P (p = 0.5) = 1, P (p = 1) = 0 [/ matemática]. Nada en los datos lo convencerá de ningún otro resultado. - Distribución posterior : su creencia después de echar un vistazo a los datos.