¿Cuáles son algunos ejemplos reales de modelos estadísticos que son pobres en la predicción pero útiles para la inferencia?

(No estoy seguro si es de mala etiqueta responder a la propia pregunta).

Acabo de encontrar un hermoso ejemplo debido a Rubin de su artículo de 1996 sobre “Imputación múltiple” que ilustra una sutil distinción entre la optimización en un sentido inferencial y la optimización en un sentido predictivo.

Si estamos imputando datos faltantes que son binarios distribuidos con un Bernoulli (.6), la opción predictiva óptima es imputar todos los 1, y por supuesto esto arrojaría la predicción correcta .6 de las veces.

Sin embargo, si nos preocupamos por imputar datos que conduzcan a una inferencia válida, en el sentido de que nos acercamos a una probabilidad de .6 basada en algún estimador, imputaríamos los datos faltantes con la distribución verdadera, Berna (.6). Sin embargo, tal método de imputación ciertamente funcionaría mal en un sentido predictivo: en promedio esperaríamos ser correctos .6 * .6 + .4 * .4 = .52 de las veces, menos de .6 obtendríamos de todos 1s.

¡Un ejemplo ilustrativo increíblemente simple pero increíblemente poderoso!

Los modelos sobre-parametrizados tienden a estar bien con la predicción. La multicolinealidad realmente no afecta mucho a la predicción, y siempre que la variable proporcione capacidad predictiva marginal, es útil. Las variables correlacionadas, aunque no son causales, son predictivas. Esto es particularmente cierto si el modelo tiene validación cruzada.

La otra cara es un modelo simplificado y seleccionado.
La varianza es baja, por lo que las estimaciones son mejores.

Esta tendencia en el modelado se aplica a todos los campos. En mi trabajo, diferenciamos entre mapeo genético y selección genómica. El mapeo genético implica la estimación de los efectos, pero tiende a funcionar mal en la predicción porque deja de lado demasiados genes importantes en un sistema complejo. En contraste, los modelos de selección genómica incluyen todos los genes (como efectos aleatorios) con el propósito principal de predicción.

He visto la misma sobre-parametrización aplicada a los modelos de marketing y pronóstico de carga de servicios públicos. Se incluyen muchos términos en estos modelos cuando el interés principal está en la predicción.

La mayoría de los modelos en el cuidado de la salud son malos predictores para las personas. Por ejemplo, solo podemos explicar una pequeña proporción de la variación en la edad al morir, pero conocemos muchos predictores importantes de mortalidad.

Casi cualquier modelo en psicología que no se base en datos experimentales sufre graves problemas de colinealidad. La psicopatología suele ser muy comórbida.

More Interesting

¿Qué debo hacer cuando tengo una cita con las características NULL?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¿Por qué se usan CNN para PNL?

¿Puedes explicar el hashing de características de una manera fácil de entender?

¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

¿Cómo puede ayudar una formación en procesamiento de señales en una carrera en ciencia de datos?

¿Qué algoritmos de aprendizaje automático utilizan servicios como wit.ai y api.ai?

¿Qué es un giroscopio? ¿Como funciona?

¿Se está separando la ciencia de datos / aprendizaje automático de la informática tradicional?

Andrew Ng: ¿Qué opinas de AlphaGo?

¿Debo memorizar las matemáticas y los algoritmos al aprender el aprendizaje automático y el aprendizaje profundo?

¿Por qué hay tantas redes de aprendizaje profundo?

¿Qué opinas de la biblioteca de aprendizaje profundo de código abierto de Amazon 'DSSTNE' (pronunciado Destiny)?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?