(No estoy seguro si es de mala etiqueta responder a la propia pregunta).
Acabo de encontrar un hermoso ejemplo debido a Rubin de su artículo de 1996 sobre “Imputación múltiple” que ilustra una sutil distinción entre la optimización en un sentido inferencial y la optimización en un sentido predictivo.
Si estamos imputando datos faltantes que son binarios distribuidos con un Bernoulli (.6), la opción predictiva óptima es imputar todos los 1, y por supuesto esto arrojaría la predicción correcta .6 de las veces.
- ¿Se pueden programar las computadoras para comprender el valor estético de algo?
- Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton
- ¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?
- ¿Cómo se diseñan y desarrollan las nuevas arquitecturas de aprendizaje profundo?
- Cómo encontrar la correlación más fuerte entre los vectores de colores a continuación en MATLAB o Python
Sin embargo, si nos preocupamos por imputar datos que conduzcan a una inferencia válida, en el sentido de que nos acercamos a una probabilidad de .6 basada en algún estimador, imputaríamos los datos faltantes con la distribución verdadera, Berna (.6). Sin embargo, tal método de imputación ciertamente funcionaría mal en un sentido predictivo: en promedio esperaríamos ser correctos .6 * .6 + .4 * .4 = .52 de las veces, menos de .6 obtendríamos de todos 1s.
¡Un ejemplo ilustrativo increíblemente simple pero increíblemente poderoso!