¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

No usas ninguno. Lo que debe hacer es el enfoque bayesiano de simplemente tratar los datos faltantes como variables latentes y, por lo tanto, integrarlos, o la práctica más comúnmente utilizada de imputación múltiple . (El primero es efectivo pero poco práctico para problemas dimensionales arbitrariamente grandes; en ciertos casos, el segundo es simplemente una aproximación del primero de todos modos).

La imputación , que es el proceso de completar los datos faltantes, debe tener en cuenta la incertidumbre que tiene sobre los valores que está imputando. Por lo tanto, no tiene sentido insertar valores individuales y luego tratar su inferencia como si se tratara de datos completos. Esto es muy similar a la diferencia entre la probabilidad estimada y la probabilidad de perfil.

Esto lleva al proceso de imputar sus datos faltantes varias veces para obtener múltiples “conjuntos de datos completos”. Luego puede obtener estimaciones de cada conjunto de datos completo y utilizar una regla de combinación que tenga en cuenta la variabilidad en las imputaciones individuales. Little and Rubin (2002) es la referencia estándar para este tema si está interesado: Análisis estadístico con datos faltantes: 9780471183860: Medicine & Health Science Books @ Amazon.com.

Existen muchas técnicas para tratar el valor perdido. Estoy tratando de pensar cuál es la mejor manera de organizar algunos de los métodos más utilizados, si utiliza SAS para implementarlo:

  • Ignorar los registros con valores faltantes.

Muchas herramientas ignoran los registros con valores perdidos. Cuando el porcentaje de registros con valores perdidos es pequeño, podríamos ignorar esos registros.

  • Sustituir un valor como la media .

Cuando el porcentaje es grande y también cuando tiene sentido hacer algo para evitar resultados de modelado de sesgo, la sustitución de un valor (p. Ej., Media, mediana) es una forma comúnmente utilizada. Pero este método podría causar distribución de sesgo y varianza. Ahí es donde entran los siguientes métodos de imputación.

  • Predecir valores perdidos.

Dependiendo del tipo de la variable imputada (es decir, continua, ordinal, nominal) y el patrón de datos faltantes (es decir, monótono, no monótono), a continuación se presentan algunos modelos de uso común. Si planea hacerlo en SAS, hay códigos SAS que puede escribir para identificar el patrón de datos que falta.

    • Regresión logística
    • Regresión discriminante
    • Cadena Markov Monte Carlo (MCMC)
  • Predecir valores perdidos – Imputación múltiple . Aunque hay pros y contras, se considera que el IM es superior a la imputación única, y mide mejor la incertidumbre de los valores faltantes.
  • Además, hay algunos supuestos estadísticos necesarios para la imputación múltiple:

    1. Si faltan datos al azar (MAR).
    2. Distribución normal multivariante, para algunos de los métodos de modelado mencionados anteriormente (por ejemplo, regresión, MCMC).

    Por fin, si tienes que pensar en qué informar ,

    • El tipo de algoritmo de imputación utilizado.
    • Alguna justificación para elegir un método de imputación particular.
    • La proporción de observaciones faltantes.
    • El número de conjuntos de datos imputados (m) creados.
    • Las variables utilizadas en el modelo de imputación.

    Espero que esto ayude.

    Lo haría solo si el algoritmo de aprendizaje no manejara los valores faltantes correctamente.

    El problema es que está asumiendo que sus atributos son independientes entre sí; en otras palabras, P (valor perdido | otros atributos) = P (valor perdido). Si ese fuera el caso en general, entonces Naive Bayes se desempeñaría muy bien en sus datos y no necesitaría un algoritmo de aprendizaje sofisticado.

    Por ejemplo, considere una tarea de aprendizaje simple: aprender XOR. La tabla de la verdad, solo para recordarle es:

    ABX
    0 0 0
    0 1 1
    1 0 1
    1 1 1

    Y ahora digamos que inyecta aleatoriamente “valores perdidos” en la columna B al azar y tiene algunas repeticiones, por ejemplo

    0 0 0
    0? 0 0
    0 1 1
    1 0 1
    1 1 0
    1 1 0
    1? 1

    Entonces ahora lo reemplazamos con la mediana, así que ahora tenemos:

    0 0 0
    0 1 0
    0 1 1
    1 0 1
    1 1 0
    1 1 0
    1 1 1

    Y eso es esencialmente imposible de aprender para cualquier clasificador, porque no tiene, por ejemplo, ninguna forma de obtener una solución 100% precisa porque está obteniendo información contradictoria: en un caso 0,1 da 0 y en un caso da 1. Además, en dos los casos 1,1 dan 0 y un caso 1,1 da 1. A veces el alumno lo hará bien y en otros lo hará mal, dependiendo del sesgo del clasificador. La negrita indica los datos ahora contradictorios.

    Pero si modela los valores faltantes correctamente, aún puede aprender la solución correcta fácilmente, ya que el alumno detectará que puede sustituir los valores faltantes correctamente y obtendrá los resultados correctos.

    Los árboles de decisión, por ejemplo, comerían el ejemplo anterior para el desayuno manejando de manera inteligente los valores faltantes y suponiendo que son lo que sea local mediana en lugar de la global.

    Algunos consejos:
    Primero, comprenda que NO hay una buena manera de lidiar con los datos faltantes. Cada software y técnica que dice que manejan bien los datos faltantes está mintiendo. Haz todo lo posible para evitarlo. Pero a veces el costo de remendar los datos es menor que desecharlos. La excepción es cuando los datos faltantes se pueden predecir con una precisión del 100% (por ejemplo, mi ciudad es Nueva York y mi estado no se encuentra).

    En segundo lugar, comprenda las ventajas y desventajas de cualquier método de imputación que elija, y asegúrese de que se ajuste a sus objetivos. Los métodos de imputación introducen un sesgo hacia los datos existentes y el valor que está utilizando para imputar; En casi todos los casos, esto significa algún tipo de regresión hacia el centro. Esto generalmente lo hace terrible para un análisis atípico.

    Crear una variable (ficticia) (o varias variables ficticias) para “falta” es una forma excelente y flexible de analizar sus datos, y en realidad puede ayudar a identificar valores atípicos. Puede subconjunto de faltantes (esencialmente ejecutando análisis separados), usarlo como una covariable; Ni siquiera necesita ser binario. Un peligro con este método es que su nueva variable puede tener relaciones de azar superfluas (es decir, un problema de prueba de hipótesis múltiples).

    Primero debe verificar si faltan sus datos al azar, completamente al azar o no al azar. Dependiendo de esta clasificación, existen diferentes métodos para tratar los datos faltantes. Si sus datos faltan completamente al azar, y solo hay unos pocos casos (con cada uno de los que tienen muchos valores faltantes), se recomienda la eliminación por lista: simplemente elimine esos casos. Si faltan sus datos al azar, busque una imputación múltiple: ejecute varias imputaciones de regresión estocástica y agrupe los resultados. A continuación hay un enlace útil con información más detallada y ejemplos:
    Datos faltantes: soluciones y ejemplos (MCAR, MAR, MNAR)

    Es posible que esta no sea la respuesta más popular, pero una opción sería utilizar un método que no requiera datos completos para comenzar, y que, por lo tanto, elimine la necesidad de la imputación de datos faltantes.

    Por ejemplo, muchos enfoques de modelado probabilístico o generativo se sienten perfectamente cómodos con algunas de las observaciones que faltan.

    ¿Qué modelo probabilístico particular debe usar? Bueno, como dijo un hombre sabio, eso depende del problema.

    Una buena técnica es interpretar primero los datos faltantes de los datos disponibles. Una forma de hacerlo es el algoritmo de maximización de expectativas que intenta crear primero el modelo a partir de los datos disponibles, luego intenta actualizar los parámetros en función del modelo creado. Esto se hace de forma recursiva hasta la convergencia. También puede ver ¿Qué es el algoritmo de maximización de expectativas (EM)? Donde se usa ¿Qué tan bueno es en términos de rendimiento y escalabilidad? ¿Cómo es diferente de la agrupación? También hay otras formas de inferir la información que falta a partir de los datos disponibles, pero la técnica básica es inferir la información que falta. Por lo general, funciona mejor.
    Otra forma es ignorar la información que falta, esto también funciona muchas veces.

    No responde exactamente a su pregunta, sino una sugerencia para eliminar cualquier sesgo hacia el centro que pueda tener si toma algo como la media de la columna que reemplazó un valor faltante con una mediana.

    Digamos que esta columna en particular está relacionada con una o más columnas. Cree un modelo, como un modelo de regresión lineal, que establezca esta relación y con cuya fortaleza se sienta cómodo. (Sin embargo, el modelo depende de los datos)

    Ahora, use los valores en la misma fila que los datos que faltan en las columnas explicativas para crear un valor ajustado que pueda colocar donde le falta un valor.

    Hice algo similar con un gran conjunto de datos que tenía, con relaciones establecidas. Siempre que los valores predictores no sean atípicos en sus respectivas columnas, y que su valor de reemplazo / ajuste resultante tampoco sea un valor atípico, eso debería estar bien. Y tenga en cuenta que para crear el modelo de regresión, debe eliminar toda la fila de la tabla donde tiene los valores faltantes.

    Editar:
    Digamos que estos valores ajustados son algunos de los valores más pequeños o más grandes, y digamos que el modelo pudo aproximar bien el valor verdadero. Entonces, su enfoque de haber reemplazado el valor faltante con la mediana crearía un sesgo hacia el centro si calcula una media; esto sería muy evidente si tiene muchos valores faltantes. Además, si el valor faltante realmente se encontraba entre los valores más pequeños o más grandes, crear cualquier tipo de modelo con haberlo reemplazado con la mediana casi seguramente arrojaría el modelo en algunos casos, incluso con solo unos pocos valores reemplazados que ahora se vuelven atípicos.

    ¿Por qué no deberíamos usar
    Imputación central
    KNN Imputation
    Regresión lineal
    Ignorar filas si hay más valores faltantes

    Si sus datos faltan al azar, ¡se recomienda la Imputación Múltiple!