¿Por qué la probabilidad condicional es más poderosa que la probabilidad conjunta en un nivel intuitivo?

Depende de lo que quieras decir con “calcular”, en realidad, no necesariamente el significado de la palabra, sino el contexto que la rodea. Por ejemplo, suponga que está tratando de calcular una probabilidad conjunta de datos con muchas dimensiones / variables. La mayoría de las veces en casos como este, los condicionales son mucho más fáciles de trabajar, ya que reducen implícitamente la dimensión (porque estás condicionando). También pueden reducir el tamaño efectivo de la muestra para cada condicional (por la misma razón), pero a menudo aún es más fácil trabajar con condicionales. (Los marginales también se usan en este caso, pero a menos que las variables en su conjunto de datos sean independientes, simplemente no puede pasar de un marginal a una articulación sin otra información. Si bien necesita tanto marginales como condicionales para obtener la articulación, en la mayoría de los casos este último será más útil).

Por otro lado, suponga que sabe (de alguna manera) la distribución exacta de los datos. (Es decir, todo lo que podría estar bajo estudio. Un oráculo te lo describió, o algo así. Sé que esto es poco probable, pero muestra que el contexto es importante. O tal vez estás trabajando en un problema teórico, que puede ser instructivo e incluso aplicable al análisis de datos reales.) Si tuviera que elegir entre obtener la distribución conjunta o la distribución condicional, naturalmente elegiría la unión, ya que toda la información está contenida en ella. Puede ser un dolor obtener los marginales y condicionales (especialmente si la articulación no es miembro de, por ejemplo, una familia exponencial), pero es posible.

Sin embargo, en la vida real, a menudo es más fácil trabajar con los condicionales. A menudo son más fáciles de describir / calcular, y si, por ejemplo, usa un clasificador discriminatorio (en una tarea de clasificación), ni siquiera necesita conocer la articulación. Un clasificador generativo puede ser “mejor” en muchos sentidos (observo que el lenguaje del enlace es bayesiano, tanto el frecuentismo como el bayesianismo tienen sus puntos), pero los clasificadores discriminativos también son útiles.

En mi opinión, no es más potente, sino que es fácilmente computable. El cálculo de probabilidad conjunta requiere integración y no es tan fácil de calcular. Por lo tanto, prefirió utilizar probabilidades condicionales siempre que sea posible.

No puedo hablar con el contexto de aprendizaje automático, pero en términos de poder estadístico proviene de la capacidad de rechazar correctamente una hipótesis falsa. Como regla general, mientras más suposiciones pueda hacer correctamente acerca de sus datos, más fácil será rechazar correctamente una hipótesis falsa y, por lo tanto, más poder tendrá. Esto funciona porque cuando podemos asumir con seguridad que ciertas características de una distribución son correctas , no tenemos que tener en cuenta la variabilidad en esas características y, por lo tanto, reducimos el error estándar, lo que facilita distinguir un efecto real de procesos aleatorios.

Las probabilidades condicionales hacen suposiciones sobre eventos que ya han ocurrido, suposiciones que las probabilidades conjuntas no hacen. Por lo tanto, las probabilidades condicionales, dado que las condiciones asumidas realmente existen, tienen más poder estadístico.

NB La desventaja de hacer suposiciones es que si nuestras suposiciones son incorrectas , nuestra prueba se vuelve (para todos los propósitos prácticos) inútil. Si sabemos la probabilidad de que un caballo gane una carrera con la condición de que haya ganado sus últimas tres carreras, ¿qué nos dice esa estadística si el caballo al que apostamos realmente perdió sus últimas tres carreras? Te sorprendería con qué frecuencia la gente comete ese tipo de error.

Primero, no estoy seguro de estar de acuerdo con tu premisa. La distribución de probabilidad conjunta de dos variables aleatorias siempre le permite calcular las probabilidades condicionales que podrían interesarle. Sin embargo, no es cierto que conocer una distribución condicional sea suficiente para calcular la distribución conjunta. Esto significa que hay más información en la distribución conjunta que en la distribución condicional.

Sin embargo, a menudo ocurre que la información proporcionada por la distribución condicional es más relevante de inmediato. Por un simple ejemplo, estamos mucho más interesados ​​en la probabilidad de que llueva hoy dado que llovió ayer que en la probabilidad conjunta de que llueva hoy y llueva ayer ya que ayer ya sucedió.

En el estudio de la probabilidad, dadas al menos dos variables aleatorias X, Y, …, que se definen en un espacio de probabilidad, la distribución de probabilidad conjunta para X, Y, … es una distribución de probabilidad que da la probabilidad de que cada uno de X, Y , … cae en cualquier rango particular o conjunto discreto de valores especificados para esa variable. En el caso de solo dos variables aleatorias, esto se denomina distribución bivariada, pero el concepto se generaliza a cualquier número de variables aleatorias, dando una distribución multivariada. La distribución de probabilidad conjunta puede expresarse en términos de una función de distribución acumulativa conjunta o en términos de una función de densidad de probabilidad conjunta (en el caso de variables continuas) o función de masa de probabilidad conjunta (en el caso de variables discretas). Estos a su vez se pueden usar para encontrar otros dos tipos de distribuciones: la distribución marginal que da las probabilidades para cualquiera de las variables sin referencia a ningún rango específico de valores para las otras variables, y la distribución de probabilidad condicional que da las probabilidades para cualquier subconjunto de las variables condicionales a valores particulares de las variables restantes. Mira este video corto pero bueno aquí. Es realmente útil. Probabilidades conjuntas | Academia BlueBook