¿Cómo se puede interpretar el teorema de Bayes en términos de inferir relaciones causales en los datos?

Hasta donde yo sé, esencialmente no existe una relación intrínseca entre Bayes y la causalidad, un tema algo opaco que ha recibido una atención masiva en estadística, filosofía y teoría de la decisión. [No puedo recomendar el libro de Judea Pearl sobre causalidad lo suficiente, o resumir sus puntos principales en una breve publicación.]

Pero, al final, el análisis bayesiano es una forma de incorporar varios tipos de información en un modelo estadístico cuidadosamente construido (como Andrew Gelman sigue enfatizando correctamente). La causalidad inferida es en cierto sentido ortogonal a si se adopta un enfoque bayesiano o frequentista, que yo sepa. Sin embargo, me gustaría escuchar las perspectivas de los demás sobre esto. Hablando de Pearl, ha abordado el tema directamente en un artículo algo personal y especialmente accesible: http://ftp.cs.ucla.edu/pub/stat_…, llamado “Bayesianismo y causalidad, o, por qué soy solo la mitad -bayesian “.

Y, hablando de Gelman, está su libro con Meng sobre este tema, ” Modelado Bayesiano Aplicado e Inferencia Causal desde Perspectivas de Datos Incompletos “. Pero esto realmente se trata más de datos faltantes y de la perspectiva de Rubin que de algún vínculo filosófico profundo entre Bayes y la inferencia causal, específicamente.

No estoy realmente seguro de que la causalidad esté bien definida en el contexto de probabilidad / estadística. Trataré de explicar una forma de verlo, pero en mi opinión no es una muy buena manera. Digo esto no porque piense que el método en sí mismo es malo en un nivel relativo, sino porque en una escala absoluta no creo que haya una buena manera de inferir causalidad en un conjunto de datos fijo utilizando principios puramente probabilísticos / estadísticos.

Alguien más ya ha mencionado a Judea Pearl y su artículo. Si recuerdo bien, el documento insinúa las redes bayesianas, pero no dice explícitamente nada sobre ellas. Las redes bayesianas son gráficos acíclicos dirigidos, donde los nodos representan variables aleatorias y los bordes codifican la dependencia condicional. Una forma en que he usado las redes bayesianas es hacer aprendizaje estructurado y luego pretender que los bordes representan causalidad.

La motivación detrás de esta interpretación es que si A causa B, entonces deberíamos inferir que B depende condicionalmente de A (o que existe una ventaja de A a B). Esto es fácil de arruinar por al menos algunas razones. En particular, el aprendizaje de estructuras para redes bayesianas es básicamente un problema de optimización combinatoria. Creo que es NP-complete, pero no tengo una fuente útil para esto.

Solo para aclarar la notación, [matemática] P (X | \ theta) [/ matemática] debe leerse como “la probabilidad de [matemática] X [/ matemática], dada [matemática] \ theta [/ matemática]”.

Por ejemplo, supongamos que [math] X [/ math] = “obtener dos seises al tirar dos dados” y [math] \ theta [/ math] = “un seis ya se ha tirado en uno de los dados”. Entonces [matemáticas] P (X | \ theta) = 1/6 [/ matemáticas].

More Interesting

¿Cuál es un buen algoritmo para la extracción de características y la detección de texto escrito a mano?

¿Cómo afecta su área de investigación de maestría (CS) a su carrera? ¿Y cuáles son las áreas más lucrativas?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Es posible compilar una función NumPy para TensorFlow como PyAutoDiff para Theano?

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cómo es el nano grado de aprendizaje automático de Udacity en comparación con la especialización de aprendizaje automático de Coursera, cuál es mejor?

¿Existe un método común para detectar la convergencia de la muestra de Gibbs y el algoritmo de maximización de expectativas?

¿Los principales profesionales de aprendizaje profundo a menudo tienen grandes lagunas de conocimiento debido a lo rápido que se mueve el campo?

¿Por qué las personas incrustan / envuelven código python en C / C ++?

¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?

¿Es razonable excluir valores atípicos en su conjunto de datos de entrenamiento para su clasificador?

¿Alguien ha usado ML para hacer un diseño * no trivial * de algoritmos CS de bajo nivel (ver comentarios)?

¿Por qué se usan capas completamente conectadas en el "extremo" [lado de salida] de las NN convolucionales? ¿Por qué no antes?

La minería de datos es una versión más fuerte de ajuste de curvas, ¿es correcta?

Cómo usar el aprendizaje automático para identificar patrones en la trama de series de tiempo