¿Cuál es la mejor manera de manejar los datos faltantes para el problema de clasificación en el aprendizaje automático?

Eliminar e Imputar son dos estrategias diferentes para manejar muestras o características con valores faltantes.

Eliminando simplemente eliminamos las características correspondientes (columnas) o muestras (filas) del conjunto de datos que tienen un cierto número de valores faltantes. Las desventajas de esta estrategia, correremos el riesgo de perder información valiosa que nuestro clasificador necesita para discriminar entre clases.

Imputando manejamos los datos faltantes mediante la aplicación de diferentes técnicas de interpolación para estimar los valores faltantes. Una de las técnicas de interpolación más comunes es la imputación de la media , donde simplemente reemplazamos el valor faltante por el valor medio de toda la columna de características. Una forma conveniente de lograr esto es mediante el uso de la clase Imputer de scikit-learn, pero llenar los valores faltantes de esta manera también es una predicción que ignora la relación entre los valores faltantes y otras características.

Visualizar las características importantes de un conjunto de datos es un primer paso importante y recomendado para aclarar la correlación entre características para guiarnos a usar una regresión u otro modelo simple para predecir los valores de las variables que faltan

Depende del patrón de falta. Si es aleatorio, la imputación es una buena opción, al igual que la eliminación de personas con datos faltantes (siempre que no haya una gran cantidad de falta en el conjunto de datos completo). Si no falta al azar, realmente no puede imputar, y arrojar los datos puede conducir a un sesgo en su análisis, que no se puede eliminar sin importar la metodología que use.

Los métodos de eliminación e inducción explicados por Bhaskar y Walid son métodos sólidos para usar.

Como con todas las cosas en la ciencia de datos, hay algunos ajustes finos en estos métodos que vale la pena leer.

Todos los modelos en ciencia de datos deben ir acompañados de pruebas. Los métodos mal aplicados pueden generar una falsa confianza en el resultado.

Imputación (estadísticas) – Wikipedia

Los datos faltantes pueden ser por una variedad de razones.

  • estructural (es decir, registrar el tamaño del sujetador para hombres)
  • Medición de ruido.

https://en.wikipedia.org/wiki/Missing_data

Es un tema importante y pocas personas lo dominan.

Hola,

Hay tres formas en que lo sé

  • Eliminar la fila con datos faltantes.
  • Precaución: se pueden eliminar muchos datos.
  • Si el atributo que falta es continuo, tome el valor medio o medio (preferible).
  • Si el atributo que falta es categórico, entonces llénelo con el valor máximo que ocurre.
  • Espero haber resuelto tu problema.

    Gracias y saludos

    BD