¿Cuál es la mejor manera de manejar los datos faltantes para el problema de clasificación en el aprendizaje automático?

Eliminar e Imputar son dos estrategias diferentes para manejar muestras o características con valores faltantes.

Eliminando simplemente eliminamos las características correspondientes (columnas) o muestras (filas) del conjunto de datos que tienen un cierto número de valores faltantes. Las desventajas de esta estrategia, correremos el riesgo de perder información valiosa que nuestro clasificador necesita para discriminar entre clases.

Imputando manejamos los datos faltantes mediante la aplicación de diferentes técnicas de interpolación para estimar los valores faltantes. Una de las técnicas de interpolación más comunes es la imputación de la media , donde simplemente reemplazamos el valor faltante por el valor medio de toda la columna de características. Una forma conveniente de lograr esto es mediante el uso de la clase Imputer de scikit-learn, pero llenar los valores faltantes de esta manera también es una predicción que ignora la relación entre los valores faltantes y otras características.

Visualizar las características importantes de un conjunto de datos es un primer paso importante y recomendado para aclarar la correlación entre características para guiarnos a usar una regresión u otro modelo simple para predecir los valores de las variables que faltan

Aprendizaje automáticoCiencia de datosClasificación deExtracción de característicasMinería de datos

Related Content

¿Por qué LinkedIn separó a su equipo de ciencia de datos?

¿Cómo debe un estudiante de CS sin experiencia obtener destreza en Machine Learning / Data Science?

Academia VS Industry, ¿qué entorno es más adecuado para adquirir habilidades en "ciencia de datos" (por ejemplo, limpieza de datos, minería / análisis, visualización)?

¿Hay una explicación fácil sobre cuándo usar fit y cuándo un fit_transform de sk-learn en Python?

¿Quién debería hacer big data?

¿Cuál es la utilidad de Big Data?

¿Qué asignaturas optativas de Matemáticas / Estadísticas son las mejores para obtener una buena base para el análisis de datos en Australia?

Depende del patrón de falta. Si es aleatorio, la imputación es una buena opción, al igual que la eliminación de personas con datos faltantes (siempre que no haya una gran cantidad de falta en el conjunto de datos completo). Si no falta al azar, realmente no puede imputar, y arrojar los datos puede conducir a un sesgo en su análisis, que no se puede eliminar sin importar la metodología que use.

Matthew Taylor

Los métodos de eliminación e inducción explicados por Bhaskar y Walid son métodos sólidos para usar.

Como con todas las cosas en la ciencia de datos, hay algunos ajustes finos en estos métodos que vale la pena leer.

Todos los modelos en ciencia de datos deben ir acompañados de pruebas. Los métodos mal aplicados pueden generar una falsa confianza en el resultado.

Imputación (estadísticas) – Wikipedia

Los datos faltantes pueden ser por una variedad de razones.

estructural (es decir, registrar el tamaño del sujetador para hombres)
Medición de ruido.

https://en.wikipedia.org/wiki/Missing_data

Es un tema importante y pocas personas lo dominan.

Walid Salah

Hola,

Hay tres formas en que lo sé

Eliminar la fila con datos faltantes.

Precaución: se pueden eliminar muchos datos.

Si el atributo que falta es continuo, tome el valor medio o medio (preferible).

Si el atributo que falta es categórico, entonces llénelo con el valor máximo que ocurre.

Espero haber resuelto tu problema.

Gracias y saludos

BD

Matthew Taylor

More Interesting

¿Qué conocimiento de bases de datos se considera suficiente para un científico de datos?

¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

Si quiero hacer una transición profesional de un contador fiscal a un científico de datos, ¿recomendaría uno de los campamentos de ciencia de datos o una maestría en ciencias de datos? ¿Por qué?

¿Qué es el álgebra relacional y para qué se utiliza? ¿Cómo se relaciona con la ciencia de datos?

¿Se acabará alguna vez la información?

¿Cuáles son los cursos en línea que debo seguir secuencialmente para aprender Machine Learning y Python for Data Science desde cero?

¿Cuál es el mejor área de ciencia de datos para estudiar?

¿Qué hace que un estadístico sea único?

¿Cuáles deberían ser algunos hitos razonables para un principiante en ciencia de datos?

Cómo extraer el registro DNS de un sitio web para compartir videos (YouTube) para combatir el terrorismo

¿Necesito saber cómo construir algoritmos de aprendizaje automático o simplemente puedo usar algoritmos que se envían con bibliotecas python o R?

Como científico de datos, ¿es mejor especializarse en la recopilación o el análisis de datos?

¿Qué tipo de cosas debería aprender a ser un analista de datos más reciente?

¿Los estadísticos están siendo reemplazados gradualmente y actualmente por científicos de datos?

Cómo dominar la programación de Python para trabajos de ciencia de datos

Web Analytics