¿Cuáles son las distribuciones bayesianas anteriores y posteriores? ¿Cuáles son sus roles en las redes neuronales?

Lo anterior y lo posterior son parte del proceso de modelado en las estadísticas bayesianas. Aproximadamente:

  1. Tienes una creencia
  2. Ves los datos.
  3. Actualizas tu creencia.

Aquí hay un ejemplo de moneda más simple donde asumiremos que solo hay dos posibilidades:

  1. La moneda es justa.
  2. La moneda siempre da cara.

La moneda se puede modelar con una distribución de Bernoulli con el parámetro [matemática] p. [/ Matemática] Entonces, 1. corresponde a [matemática] p = 0.5 [/ matemática] y 2. a [matemática] p = 1 [/ matemática] .

Antes de tirar la moneda, se podría pensar que es más probable que sea justa. Por ejemplo, podrías creer que:

[matemática] P (p = 0.5) = 0.8, P (p = 1) = 0.2. \ tag {1} [/ matemática]

Esta es tu creencia previa ; lo que crees que sucederá antes de ver los datos. Tenga en cuenta que esta creencia es subjetiva: otra persona podría pensar que es más probable que se cargue la moneda que de otra manera.

Luego, lanzo la moneda seis veces y cada vez que sucede obtengo una H. ¿Cómo cambiarán sus probabilidades sobre [matemáticas] p [/ matemáticas] ahora que tiene datos?

Bueno, la probabilidad de obtener una sola H. si conoce el parámetro p es:

[matemáticas] P (H. | p) = p. \ tag {2} [/ matemáticas]

Entonces, la probabilidad de obtener seis de ellos si conoce el valor del parámetro [math] p [/ math] (y debido a la independencia de los lanzamientos) es:

[matemáticas] (P (H. | p)) ^ 6 = p ^ 6. \ tag {3} [/ matemáticas]

OK, pero no sabe cuál es el parámetro [math] p [/ math], solo cree en cuáles deberían ser los valores. Por lo tanto, las estadísticas bayesianas le permiten actualizar su creencia a partir de los datos:

[matemática] P (p = 0.5 | \ text {Datos}) \ propto 0.5 ^ 6P (0.5) = 0.5 ^ 6 \ cdot 0.8 \ simeq 0.125 \ tag {4} [/ matemática]

y

[matemática] P (p = 1 | \ text {Datos}) \ propto 1 ^ 6 P (1) = 0.2 \ etiqueta {5} [/ matemática]

Esas no son probabilidades todavía, pero una vez que las normalice, obtendrá la probabilidad posterior, su creencia después de mirar los datos:

[matemática] P (p = 0.5 | \ text {Datos}) \ simeq 0.05, P (p = 1 | \ text {Datos}) \ simeq 0.94 \ tag {6} [/ matemática]

Entonces, ahora está casi seguro de que la moneda está cargada y esto se refleja en la distribución posterior.


Para resumir:

  • Distribución previa : creencia subjetiva de que algo sucede antes de mirar los datos . Mientras no tenga demasiada confianza (y tenga suficientes datos), estará más o menos seguro al elegir los anteriores.
    Para explicar la parte de “confianza”, imagine que en el ejemplo anterior eligió [matemática] P (p = 0.5) = 1, P (p = 1) = 0 [/ matemática]. Nada en los datos lo convencerá de ningún otro resultado.
  • Distribución posterior : su creencia después de echar un vistazo a los datos.

En su mayor parte, la inferencia bayesiana no está relacionada con las NN. Existen algunos métodos recientes que combinan NN con métodos bayesianos, pero aún así el componente NN y el componente bayesiano son en gran medida independientes.

Ahora, llegando a los métodos bayesianos, antes es la distribución que captura sus supuestos / conocimiento de dominio [“sesgo inductivo”], y es independiente de los datos. Posterior es la nueva distribución que captura tanto los supuestos / conocimiento del dominio como el patrón en los datos observados.

Por ejemplo, considere lanzar monedas. Digamos que le dan una moneda, y desea encontrar la probabilidad de obtener caras. Llamemos a eso [matemáticas] \ theta [/ matemáticas]. Sin realizar ningún lanzamiento, ¿qué crees? Que [math] \ theta [/ math] debe estar cerca de [math] 0.5 [/ math]. Por lo tanto, su distribución sobre los valores de [math] \ theta [/ math] sería similar a la siguiente:

Una vez más, lo que esto está diciendo es que es más probable que [math] \ theta [/ math] esté cerca de [math] 0.5 [/ math] que estar cerca de [math] 0 [/ math] o [math] 1 [/ matemáticas].

Ahora, digamos que arrojas la moneda 10 veces, y aterriza Cara cinco veces, y Cola cinco veces. Entonces, esto concuerda con su suposición, y su posterior también se verá similar al anterior: valor más alto cercano a [matemáticas] 0.5 [/ matemáticas], valores más bajos cercanos a [matemáticas] 0 [/ matemáticas] y [matemáticas] 1 [/matemáticas]. [La forma de la distribución seguirá siendo la misma, pero la curva realmente cambiará, llegando a ser más alta.]

Si, por el contrario, los 10 lanzamientos resultan en Caras nueve veces y Colas una vez, entonces su posterior será diferente: tendrá valores grandes alrededor de [matemáticas] 1 [/ matemáticas] y valores más bajos en cualquier otro lugar.

A medida que aumenta el número de lanzamientos [aumenta la cantidad de datos], el efecto de lo anterior en lo posterior se reduce.


Fuente de la imagen: Comprender Bayes

No puedo hablar por sus roles en las redes neuronales, pero aquí hay una explicación rápida de las anteriores y posteriores bayesianas.

En muchos experimentos, existe cierta información previa que podemos utilizar para hacer una inferencia mejor educada. Por ejemplo, digamos que estamos lanzando una moneda, y cada lanzamiento cuesta X dólares. Queremos encontrar una buena representación de su probabilidad de aterrizar cabezas, mientras gastamos la menor cantidad de dinero posible. En un mundo frecuentista, los antecedentes no importan. Entonces tendríamos que lanzar la moneda un cierto número de veces N, para decir, crear un intervalo de confianza del 95% para la probabilidad de caras. Ahora, esto cuesta N * X dólares para hacer.

En una perspectiva bayesiana, creemos que existe cierta información previa que se puede utilizar. Digamos, si previamente se realizó un experimento con esa moneda exacta que estamos adivinando. Luego podemos modelar esta distribución previa y usarla para incorporar información a nuestra respuesta final. Ahora, por supuesto, podemos lanzar la moneda N veces como antes, pero no tendríamos que llevarlo tan al extremo si ya tenemos un buen previo para nosotros en nuestro teorema de Bayes.

Antes de llegar a la parte posterior, necesitamos la probabilidad, que es básicamente nuestra probabilidad de que ocurra lo anterior. El posterior es proporcional al producto de la probabilidad y el previo, que es entonces una distribución basada en la probabilidad y el anterior, que en este caso es la probabilidad de cara de esta moneda.

Lo siento si esto no ayudó del todo, ¡todavía estoy tomando la Inferencia Bayesiana ahora! ¡Espero que esto ayude!

More Interesting

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.

¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?

Cómo probar un conjunto de datos no se puede clasificar

¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

¿Qué significa que una modelo se sobreajuste?

¿El aprendizaje automático es solo una forma de predecir con precisión resultados particulares y / o tomar acciones óptimas basadas en algún conjunto de datos?

¿Qué criterios deberían ser apropiados para terminar el entrenamiento codicioso no supervisado de autoencoder por capas?

¿Cuál es la diferencia entre Hadoop y Teradata aster?

¿Podría alguien elaborar la relación entre un lenguaje de máquina, un sistema operativo y un procesador en particular?

¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?

¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

Aprendizaje automático: ¿cuándo debo aplicar la normalización / estandarización de datos?

Cómo aprender el aprendizaje automático desde el nivel cero

¿Cuál es una buena fuente o explicación sobre la tasa de error de fonema (PER) y la tasa de error independiente de la posición, o la tasa de error de letras?

¿Cómo explicaría la desigualdad de Hoeffding y, como consecuencia natural, la dimensión Vapnik Chervonenkis a un niño de diez años?