¿Cómo explicarías la probabilidad condicional y el teorema de Bayes a un niño?

Mi respuesta no ayudará a desarrollar una intuición para la probabilidad (por qué funciona cuando se multiplican las probabilidades para sucesivos eventos, etc.) pero espero que ilustre al menos la definición de probabilidad condicional. Creo que la intuición de la probabilidad es bastante difícil de desarrollar, ya que se basa esencialmente en cosas empíricas que aceptamos como verdaderas sin pruebas exactas. Por ejemplo, creo que incluso para pensar en qué es la probabilidad , tenemos que asumir implícitamente que creemos en la ley de los números grandes, por ejemplo, si lanzamos una moneda muchas veces, saldrá cara la mitad del tiempo y saldrán la mitad del tiempo.

De todos modos, creo que al menos podemos explicar la definición con un ejemplo:

Imagine que hay una clase de primer grado con 20 niños. Al elegir los nombres de un sombrero, 10 de esos niños serán elegidos para ir a la clase de música, y 10 serán elegidos para ir a la clase de arte. En la clase de música de 10 niños, 5 serán elegidos para tocar la batería y 5 serán elegidos para tocar la grabadora.

Estas en la clase ¿Cómo calculas la probabilidad de que toques la batería hoy?

Hay un proceso de dos pasos para tocar la batería. Primero, debes ser elegido para ir a la clase de música, y luego debes ser elegido para tocar la batería. La probabilidad de que lo elijan para ir a la clase de música es evidente y fácil de calcular: 10/20 = 0.5, o 50%.

Pero esta no es la respuesta a nuestra pregunta original. Lo siguiente que tenemos que saber es qué tan probable es que seas elegido para tocar la batería dado que ya has sido seleccionado para estar en la clase de música . La respuesta a eso es, nuevamente, 50%. De los 10 niños que ya están en la clase de música, 5 (50%) serán elegidos para tocar la batería.

Esta es una probabilidad condicional. Le da la probabilidad de que ocurra un evento, en este caso que sea elegido para tocar la batería, dado que ya ha ocurrido otro evento (en primer lugar, ser elegido para ir a la clase de música).

Usamos probabilidades condicionales para calcular probabilidades para eventos secuenciales. Para calcular la probabilidad que queremos, multiplicamos la probabilidad de que lo primero ocurra por la probabilidad de que lo segundo suceda dado que lo primero ya sucedió.

De hecho, siempre hacemos esto. Por ejemplo, sabemos que tenemos un 25% de posibilidades de obtener dos caras si lanzamos una moneda dos veces. Podemos pensarlo como si multiplicáramos la posibilidad de que la primera moneda salga cara (50%) por la probabilidad de que la segunda moneda salga cara, dado que la primera moneda salió cara. Por supuesto, esto es del 50%, y el hecho de que la primera moneda saliera cara no hizo ninguna diferencia. Cuando la probabilidad de este segundo evento no cambia por lo que sucede con el primero, llamamos a los dos eventos independientes. Es por eso que para eventos independientes simplemente multiplicamos las probabilidades juntas, como en monedas, dados, etc.

El teorema de Bayes es en realidad una identidad que se deriva de los axiomas básicos de probabilidad. No creo que haya mucho que ganar aquí al pasar por los axiomas básicos y mostrar cómo sigue. Dado que estamos explicando simplemente, probablemente sea más importante que demos una idea de para qué se usa el teorema de Bayes.

P (A | B) = P (B | A) P (A) / P (B)

Podemos usar el teorema de Bayes para “actualizar” lo que creemos que es probable que ocurra un evento. Supongamos que hemos perdido nuestra cookie y estamos tratando de determinar la probabilidad de que nuestro amigo Jimmy haya tomado nuestra cookie (llámela evento A). Sospechamos de Jimmy porque tiene migas de galleta en su camisa (evento B).

Primero, evaluamos la probabilidad de que Jimmy robó nuestra galleta independientemente del hecho de que vimos las migajas. Esto se llama probabilidad previa. Esta es P (A) en la fórmula anterior. Supongamos que se sabe que Jimmy hace este tipo de cosas, pero también reconocemos que existe la posibilidad de que simplemente hayamos olvidado dónde colocamos la cookie, por lo que decimos P (A) = 0.3 o 30%.

Luego, tenemos que evaluar la probabilidad de que Jimmy hubiera tenido migas de galleta en su camisa dado que la robó . Esta es una probabilidad condicional como discutimos anteriormente. Si robó la galleta, creemos que es probable que hubiera terminado con migas de galleta en su camisa, dado su desorden en general y la prisa con la que habría tenido que actuar. Entonces ponemos P (B | A), la probabilidad del evento B dado que el evento A ha sucedido, en 0.6.

Finalmente, tenemos que evaluar la probabilidad de que Jimmy hubiera tenido migas de galletas en su camisa, independientemente del hecho de que falta nuestra galleta (P (B)). Recuerde que esto tiene que incluir el hecho de que su cookie podría haber sido robada o no (ver más abajo). Teniendo esto en cuenta, ponemos P (B) = 0.35.

[La ley de probabilidad total nos dice cómo pensar sobre esto: P (B) = P (B | A) P (A) + P (B | A ‘) P (A’). Esto nos dice que la probabilidad de que haya migajas en la camisa de Jimmy es la probabilidad de que hubieran estado allí, dado que él robó su galleta multiplicado por la probabilidad de que robó la galleta más la probabilidad de que simplemente hubieran estado allí si no lo hubiera hecho. robar la galleta, multiplicado por la probabilidad de que él no robó la galleta.]

Usando el teorema de Bayes, estos tres números nos darán P (A | B), la probabilidad de A dada B, o lo que ahora pensamos de la probabilidad de que Jimmy haya robado la galleta, después de haber visto las migajas en su camisa. Simplemente conectamos nuestros números a la identidad y vemos que nuestra probabilidad posterior es:

P (A | B) = P (B | A) P (A) / P (B) = 0.6 * 0.3 / 0.35 = 0.514

¡Esto tiene sentido! Vimos las migas de galleta en la camisa de Jimmy, y ahora creemos que hay una mayor probabilidad de que robe nuestra galleta. El teorema de Bayes nos dice cómo actualizar lo que pensamos sobre las probabilidades después de obtener nueva información sobre el mundo.

More Interesting

Cómo crear una representación jerárquica de un conjunto de objetos usando una red neuronal

¿Cómo se usa SVM y cómo se implementa mejor?

¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?

¿Qué hay de nuevo con Wasserstein GAN?

¿A qué áreas de investigación y aplicaciones se aplica con éxito el aprendizaje automático bayesiano?

¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático?

¿Cómo construiría un sitio web que utiliza el aprendizaje automático (qué marcos para frontend y backend, Python o R)?

¿Dónde puedo encontrar excelentes bibliotecas de aprendizaje automático para Java?

¿Por qué Quora eligió a HackerRank como plataforma para organizar sus competiciones de ML en lugar de algún sitio más familiar como Kaggle?

¿Cómo le enseñas a un robot que ha cometido un error?

¿El antiguo guardia de IA ha frenado la investigación de aprendizaje automático en el MIT?

¿Hay algún profesor actual en Asia que tenga un historial con Bayesian no paramétrico, tanto en teoría como en aplicación?

¿Cuál es la motivación de Google para el código abierto del modelo de TensorFlow para problemas ML / NLP como el resumen automático de texto?

¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

¿Qué debo hacer para construir una carrera en Machine Learning? ¿Por dónde empiezo y cuáles son mis opciones?