¿Qué es el análisis de datos incompleto?

Hola !

Le daré una respuesta en los campos de análisis estadístico, para el tipo de datos ‘de por vida’ (uno de los más comunes)

El análisis de datos incompleto es el análisis estadístico de un conjunto de datos, por ejemplo, la construcción de un modelo estadístico de cuánto tiempo funcionará una bombilla antes de que se queme, pero esta vez sus datos están “incompletos”.

Por lo general, cuando los estudiantes estudian estadísticas, trabaja su modelo en un conjunto de datos donde conoce exactamente la vida útil de cada experimento (por ejemplo, la vida útil de la bombilla antes de quemarse). Cuando tiene un conjunto de datos incompleto, es posible que no conozca la vida útil de cada experimento, pero hay algunos de los experimentos en los que la única información que tiene es: “después de x minutos / horas / días / … mi experimento aún está en proceso (p. Ej. la bombilla no se quemó todavía).

Hay 3 tipos de datos incompletos de “vida útil”:

  • Primer tipo: cuando ejecutas n experimentos y detienes tu experimentación en un momento dado T. Tendrás k experimentos que terminaron y nk que aún se están ejecutando, simplemente dejaste de experimentar.
  • Segundo tipo: cuando ejecuta n experimentos, y detiene su experimentación después de que terminaron k experimentos, dándole un tiempo T_k (cuando terminaron los primeros experimentos k). Tendrás k experimentos que terminaron antes de T_k (sabes el valor exacto) y nk que aún se están ejecutando.
  • Tercer tipo: es una mezcla de los dos, generalmente el caso de las pruebas clínicas, en las que, por ejemplo, está dando una cura a los pacientes y calculando el tiempo antes de la recuperación. Es posible que tenga pacientes que mueran o se vayan antes de que finalice el tratamiento, por lo tanto, solo conoce algunos valores completos de por vida de los experimentos y algunos solo se fueron.

Todos estos casos también funcionan para el comienzo del experimento (conoce todos los tiempos finales pero no siempre cuando comenzó el experimento)

Para cada tipo de datos censurados (o incompletos), todo lo que sabe para los experimentos nk que están incompletos es que todavía se estaban ejecutando cuando abandona los experimentos. Por ejemplo, usted sabe que después de T minutos / horas / …, la bombilla seguía encendida o el tratamiento seguía en marcha.

Con los datos que describí, aún puede trabajar en modelos estadísticos como de costumbre, pero debe tener en cuenta el hecho de que para algunos de sus experimentos solo sabe que no terminaron después de un tiempo determinado T.

También probar esos modelos es ligeramente diferente de probar datos completos y completos.

Publicaré más adelante un pequeño trabajo de investigación que hice sobre análisis de datos incompletos. Puede encontrarlo ahora en mi LinkedIn en la sección de introducción.

Julien

PD: Esta es mi primera respuesta de Quora, ¡espero que les guste!