Eliminar e Imputar son dos estrategias diferentes para manejar muestras o características con valores faltantes.
Eliminando simplemente eliminamos las características correspondientes (columnas) o muestras (filas) del conjunto de datos que tienen un cierto número de valores faltantes. Las desventajas de esta estrategia, correremos el riesgo de perder información valiosa que nuestro clasificador necesita para discriminar entre clases.
Imputando manejamos los datos faltantes mediante la aplicación de diferentes técnicas de interpolación para estimar los valores faltantes. Una de las técnicas de interpolación más comunes es la imputación de la media , donde simplemente reemplazamos el valor faltante por el valor medio de toda la columna de características. Una forma conveniente de lograr esto es mediante el uso de la clase Imputer de scikit-learn, pero llenar los valores faltantes de esta manera también es una predicción que ignora la relación entre los valores faltantes y otras características.
- ¿Qué es el ERP? ¿Cómo apoya ERP a las empresas? ¿Es una herramienta que ayuda con el mantenimiento de registros y ofrece una instalación de almacenamiento de datos?
- ¿Habrá escasez de especialistas en aprendizaje automático?
- Aprendizaje profundo: ¿Cuándo aplicamos la eliminación de ruido en el codificador automático de eliminación de ruido?
- ¿Es necesario obtener un doctorado para ser un científico de datos?
- ¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?
Visualizar las características importantes de un conjunto de datos es un primer paso importante y recomendado para aclarar la correlación entre características para guiarnos a usar una regresión u otro modelo simple para predecir los valores de las variables que faltan