No usas ninguno. Lo que debe hacer es el enfoque bayesiano de simplemente tratar los datos faltantes como variables latentes y, por lo tanto, integrarlos, o la práctica más comúnmente utilizada de imputación múltiple . (El primero es efectivo pero poco práctico para problemas dimensionales arbitrariamente grandes; en ciertos casos, el segundo es simplemente una aproximación del primero de todos modos).
La imputación , que es el proceso de completar los datos faltantes, debe tener en cuenta la incertidumbre que tiene sobre los valores que está imputando. Por lo tanto, no tiene sentido insertar valores individuales y luego tratar su inferencia como si se tratara de datos completos. Esto es muy similar a la diferencia entre la probabilidad estimada y la probabilidad de perfil.
Esto lleva al proceso de imputar sus datos faltantes varias veces para obtener múltiples “conjuntos de datos completos”. Luego puede obtener estimaciones de cada conjunto de datos completo y utilizar una regla de combinación que tenga en cuenta la variabilidad en las imputaciones individuales. Little and Rubin (2002) es la referencia estándar para este tema si está interesado: Análisis estadístico con datos faltantes: 9780471183860: Medicine & Health Science Books @ Amazon.com.
- Con experiencia en informática, ¿vale la pena aprender R y ciencia de datos?
- ¿Los altos costos de las revistas científicas impiden que las personas se enteren de sus resultados?
- ¿Cómo es ser un científico de datos en IBM?
- Cómo restaurar los archivos en mi partición eliminada
- Después de realizar una validación cruzada K-fold en una entrada 7 * 98 con una salida de datos 1 * 98, ¿cómo selecciono los datos para el entrenamiento y las pruebas?