¿Cómo funciona la minería de datos en el caso de datos faltantes?

Pruebe con un árbol de decisión: toman los valores faltantes como una categoría separada y los usan efectivamente como predictores.

Para otros modelos, asigne un valor especial a sus valores faltantes. Es posible que desee incluir tanta información como sea posible sobre el tipo de valor perdido que es (por ejemplo: “-1” para un tipo de falta que no se observa, y “-2” para un tipo de falta que surgió de una selección que hiciste).

Es posible que pueda deducir que el valor es realmente “0”, por ejemplo, porque falta significa que la persona no completó el cuestionario.

Una última opción es imputar el valor al observar observaciones similares que tienen un valor para la variable que falta.

El mensaje principal aquí es: ser concienzudo, tomar una decisión, registrar su decisión y seguir adelante (teniendo en cuenta lo que hizo para no tener accidentes en la interpretación más adelante).

Me sorprende que nadie haya mencionado la maximización de expectativas. Aquí hay una gran página explicativa en gatech.edu. Está maximizando un límite inferior en la probabilidad de datos observados.

Para construir sobre la respuesta de Jim Kenyon, aquí hay algunos pros y contras de diferentes enfoques.

La principal ventaja de completar los datos faltantes (por ejemplo, promediando los datos que están cerca) es que facilita el trabajo posterior en el conjunto de datos. Si desea proyectar datos históricos en el futuro, arreglar el historial para que esté completo hace que todo lo que viene después sea más fácil, porque necesita que los puntos en la serie temporal estén igualmente espaciados para que las matemáticas funcionen.

El problema con el llenado de datos es que puede estar equivocado.

Se pueden evitar los datos faltantes, pero estos requieren modelos que puedan manejar datos incompletos. En general, su modelo asumirá que los datos que faltan son como los datos que tiene. Esto es cierto con muestreo aleatorio. Pero no será cierto si faltan todos los datos de una fuente en particular (por lo tanto, las estadísticas de los datos faltantes están sesgadas)

Si le faltan datos de una fuente en particular, o de un tipo en particular, a veces lo mejor que puede hacer es poner la certeza de sus resultados. Por ejemplo, si no sabe cuáles son los datos, pero probablemente esté en el rango de valores 5-10, puede calcular una conclusión del peor y el mejor caso (uno si es 5 y otro si es 10) y esto se convierte en el rango de posibles conclusiones.

Si es posible caracterizar estadísticamente los datos faltantes, puede calcular barras estadísticas de error para los resultados, pero esto puede ser bastante complicado.

En definitiva, se trata de rendimientos decrecientes. ¿Qué tan preciso realmente necesitas ser? Luego haga la cantidad mínima de trabajo para lograr esa precisión.

Lamentablemente, la respuesta es: “depende de la técnica y la implementación de la técnica que se utiliza”.

Completar los datos faltantes es un enfoque, y hay diferentes maneras de hacerlo (por ejemplo, use un valor promedio; use una regresión local; use un valor promedio local).

Descartar registros con valores perdidos es otra.

Como señala Naresh Abburi, completar los valores faltantes tiene sus desventajas. Lo mismo ocurre con el descarte de registros con valores perdidos, particularmente si el conjunto de datos es pequeño, o los registros con valores perdidos son casos raros.

No hay una “respuesta fácil” para esto.

La falta de datos es un problema común en Data Mining
Usted decide si irá con el análisis de caso completo o si imputará los datos faltantes.
Dos problemas principales cuando faltan los datos son
1. los coeficientes de su modelo no son una verdadera representación del objetivo.

2. Y la puntuación de los nuevos datos tampoco se puede hacer.

Verifique los temas sobre datos que faltan al azar y datos que faltan completamente al azar.

Naresh