En mi opinión, no parece una mala idea, sino peligrosa.
¿Por qué? Porque aprendes de los datos que generaste. Por lo tanto, está apilando errores y sesgos. Si su modelo que predice edades, llamémoslo [matemáticas] a [/ matemáticas], de alguna manera es incorrecto (es decir, inexacto, no está en línea con la realidad), entonces su modelo final, [matemáticas] m [/ matemáticas], estará sesgado. En otras palabras, pondrás esfuerzo en [math] m [/ math] para converger en un punto equivocado. No podría sacar ninguna conclusión de eso.
El punto de usar alternativas simples como el promedio no es agregar sesgo. Aquí puede ver un promedio como la información menos “valiosa”, por lo tanto, es una forma de llenar el espacio en blanco sin decir demasiado. ¿Ves que, si tu conjunto de datos se trata de una tirada de dados bastante equilibrada, tiene sentido llenar valores en blanco con 3.5?
- ¿AI / Machine Learning destruiría los futuros trabajos de TI?
- ¿Cuál es el alcance y la aplicación del aprendizaje automático y la inteligencia artificial en el campo de la defensa?
- ¿Crees que los robots puedan convertirse en enemigos de la humanidad?
- ¿Es la "teoría unificada de AI" del MIT realmente un gran avance?
- ¿Qué es la inteligencia neuronal?
Tiene dos opciones cuando se trata de completar valores perdidos:
- No tiene idea del valor: intente rellenar sin influir, es decir, promedio, mediana, etc.
- Tiene una idea, por lo tanto, afirma que puede “arreglar” su conjunto de datos correctamente. Debe asegurarse de que esto sea exacto, de lo contrario, es posible que no dé mejores resultados (o incluso peores). No estoy seguro de que valga la pena.