Tienes múltiples opciones.
- Elija el valor faltante como otro valor ordinal.
- Tome la mediana de todos los valores.
- Para alguien que quiera experimentar, tome los ejemplos que tienen el atributo presente y entrene a un clasificador de múltiples clases usando ese atributo como la etiqueta de clase y otros atributos como características (el más simple es una regresión logística, un método de entrenamiento más simple y sencillo) use knn) e intente predecir el atributo para aquellas muestras que no tienen el atributo presente.
- Si conoce la distribución de probabilidad de ese atributo, puede muestrearlos usando esa distribución.
La técnica que adoptes depende de cuál sea tu objetivo final. ¿Puedes intentar eliminar esas muestras que tienen una característica que falta? ¿Impacta estadísticamente su modelo? Puede ser que no.
- ¿Qué constituye un gran equipo de ciencia de datos?
- ¿Por qué se considera que la ciencia de datos está de moda?
- ¿Qué significa big data para los especialistas en marketing? ¿Cómo se maneja esto?
- ¿Vale la pena cambiar de carrera de ciencia de datos a actuario?
- ¿Cómo compararía las ofertas de especialización de "ciencia de datos" de Coursera y Udacity?