¿Puede un fármaco ser estadísticamente efectivo para toda la población, pero estadísticamente no es efectivo para todas las subpoblaciones (como hombres y mujeres) por separado?

Esto parece imposible, pero es muy posible. Esto se llama la paradoja de Simpson y aquí hay un ejemplo simple de juguete que demuestra este efecto:

Pacientes combinados curados no curados Tasa de curado
Droga 40 20 20 50%
Sin Drogas 40 16 24 40%

Hombres Pacientes Curados Tasa de curación no curada
Droga 30 18 12 60%
Sin droga 10 7 3 70%

Mujeres Pacientes Curados Tasa de curación no curada
Droga 10 2 8 20%
Sin Drogas 30 9 21 30%

Destaqué en negrita las líneas que representan una tasa de curación más alta para toda la población y para las subpoblaciones masculinas y femeninas por separado. En este caso particular, lo que está sucediendo es que los hombres son más propensos a tomar el medicamento y los hombres también tienen una tasa de curación más alta (con o sin el medicamento) que las mujeres. Entonces, para los resultados combinados, parece que el medicamento está funcionando, pero para los hombres y las mujeres por separado, el medicamento realmente reduce la tasa de curación.

La paradoja de Simpson destaca la dificultad de determinar la causalidad a partir de correlaciones estadísticas. Nuestras intuiciones sobre la causalidad dirían que no puede tener causalidad opuesta para toda la población y para TODAS las subpoblaciones. Para una discusión interesante y esclarecedora sobre la resolución de esta paradoja en términos de causalidad, consulte http://bayes.cs.ucla.edu/R264.pdf.

Related Content

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

Cómo hacer LDA

¿Recomendaría un MBA de una escuela superior o un doctorado en Aprendizaje automático de una escuela superior?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

¿Qué son los núcleos en aprendizaje automático y SVM y por qué los necesitamos?

¿Cómo entrenamos un clasificador para el cual solo tenemos: 1) un conjunto de datos que son datos de entrenamiento explícitamente positivos y 2) un conjunto de datos que se desconoce (tiene el potencial de ser positivo o negativo)?

More Interesting

Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?

¿Qué hace una capa convolucional 1 × 1?

Cómo codificar TSVM usando bibliotecas SVM

¿Cuál es la mejor arquitectura de red neuronal para procesar video?

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

¿Es probable que Goldman Sachs sea el primero en alcanzar la singularidad?

Por lo general, los RNN se usan para PNL, ¿cuándo tienen sentido los CNN en PNL?

¿Cuáles son los puntos importantes de comparación entre Mahout y otras bibliotecas Java ML como Lingpipe o Weka?

Cómo derivar la propagación hacia atrás desde la segunda capa de convolución

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Cuál es la definición de 'conjunto de desarrollo' en el aprendizaje automático?

¿Cuáles son algunos de los usos del aprendizaje automático en los motores de búsqueda?

¿Qué trabajo puede hacer un ingeniero de aprendizaje automático para ayudar a las personas?

¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?

¿Hay alguna empresa de software en Bangladesh que trabaje con ciencia de datos / ML / ANN / Visión por computadora?

Web Analytics