¿Es una buena idea utilizar un algoritmo de aprendizaje automático para imputar valores perdidos en un conjunto de entrenamiento?

En mi opinión, no parece una mala idea, sino peligrosa.

¿Por qué? Porque aprendes de los datos que generaste. Por lo tanto, está apilando errores y sesgos. Si su modelo que predice edades, llamémoslo [matemáticas] a [/ matemáticas], de alguna manera es incorrecto (es decir, inexacto, no está en línea con la realidad), entonces su modelo final, [matemáticas] m [/ matemáticas], estará sesgado. En otras palabras, pondrás esfuerzo en [math] m [/ math] para converger en un punto equivocado. No podría sacar ninguna conclusión de eso.

El punto de usar alternativas simples como el promedio no es agregar sesgo. Aquí puede ver un promedio como la información menos “valiosa”, por lo tanto, es una forma de llenar el espacio en blanco sin decir demasiado. ¿Ves que, si tu conjunto de datos se trata de una tirada de dados bastante equilibrada, tiene sentido llenar valores en blanco con 3.5?

Tiene dos opciones cuando se trata de completar valores perdidos:

No tiene idea del valor: intente rellenar sin influir, es decir, promedio, mediana, etc.
Tiene una idea, por lo tanto, afirma que puede “arreglar” su conjunto de datos correctamente. Debe asegurarse de que esto sea exacto, de lo contrario, es posible que no dé mejores resultados (o incluso peores). No estoy seguro de que valga la pena.

AlgoritmosAprendizaje automáticoClasificaciónInteligencia Artificial

Related Content

¿Cómo Amazon echo y Alexa generan un potencial de $ 10 mil millones para 2020?

¿Cuál es la forma más fácil de entender BFS en Inteligencia Artificial? Con ejemplo.

¿Cuáles son algunas aplicaciones de la IA en el campo de la agricultura?

¿Cómo está diseñada la IA para un juego de computadora complicado como Civilization IV o Europa Universalis?

¿Cuáles son buenos recursos para construir una IA de Texas Hold'em No Limit?

¿Qué significa el escalado de datos en el aprendizaje automático?

¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?

Me preguntaba lo mismo, y una vez utilicé el conjunto de datos del juguete Titanic en kaggle.com para probar ambos enfoques.

En el conjunto de datos Titanic, el 20% de las muestras tienen edades faltantes.

Primero, usé la regresión XGBoost para predecir las edades faltantes. Mi modelo en realidad tenía un RMSE bastante alto, por lo que no fue tan bueno.
Luego volví e impute los valores faltantes con algún valor (creo que usé la mediana, pero en realidad no importa). Hice una columna booleana separada que indicaba si la edad se imputaba o no.

El segundo enfoque es mucho más simple, pero ese modelo en realidad funcionó mejor en este caso. Podría haber pasado más tiempo para mejorar el modelo de regresión de edad, pero el enfoque de imputación funcionó significativamente mejor, por lo que no valió la pena.

Siempre que indique qué muestras se imputaron o no, su modelo final debería poder inferir la relación y comprender cómo ponderar los valores imputados, especialmente si está utilizando modelos de árbol de decisión.

Håkon Hapnes Strand

More Interesting

¿Es posible programar una IA para generar automáticamente preguntas dado el texto de un artículo o libro?

¿Será posible crear IA en un mundo virtual que realmente crea que existe?

¿Hay algún proyecto trabajando en un sistema para crear fácilmente una simulación (limitada) de una persona real?

¿Cuál es el algoritmo de automóvil autónomo que maximiza las bajas?

¿Las computadoras son buenas para resolver rompecabezas?

¿Cómo funciona la capa de clasificación softmax de una red neuronal?

Soy nuevo en programación, ¿qué significa entrenar una red neuronal?

¿Qué es más fácil de aprender: IA o aprendizaje automático?

Con la tecnología actual, ¿puede un sistema de inteligencia artificial leer un problema expresado en palabras y luego resolverlo?

¿Cuáles son los objetivos futuros para la IA?

¿Qué tipo de IA es Amazon Alexa?

¿Cuál es la próxima gran novedad en la industria del software, aparte de la inteligencia artificial y la robótica?

¿Es realmente posible usar clasificadores de aprendizaje automático listos para usar como SVM o Random Forest para predecir con precisión la dirección del stock?

¿En qué sentido los HBF (funciones de base hiper) extienden RBF (funciones de base radial) en el aprendizaje automático?

¿Cómo se comportaría una red neuronal híbrida?

Web Analytics