El enfoque que tomaría depende de la cantidad de datos que tengo:
gran cantidad de datos (> 100000 puntos de datos): es más seguro ignorar si realmente es solo el 10%, que hacer cualquier otra cosa. O use bosques aleatorios o algo en lugar de regresión logística.
datos moderados (miles de puntos de datos): existen varios métodos simples para la imputación de datos faltantes, y funcionarán razonablemente dado que solo una pequeña porción de sus datos se ve afectada.
- ¿Cuál es la diferencia entre un científico de datos y un profesional de inteligencia de negocios?
- ¿Cuál es la diferencia entre especialización y generalización en DBMS?
- ¿Cuál es la especificación requerida en una computadora para participar en las competencias de Kaggle?
- ¿Por qué tantos datos se vuelven 'oscuros'?
- Cómo cambiar de carrera de soporte a tecnología de big data
Una de las más simples es la imputación del vecino más cercano, que tiene implementaciones en muchos idiomas, esto funcionará rápidamente para conjuntos de datos de tamaño moderado.
También puede ajustar un modelo de análisis factorial al subconjunto completo de datos y luego usarlo para imputar valores faltantes, o usar cualquier otra imputación basada en factorización matricial para tratarlo. Un enfoque relacionado sería aprender regresores independientes para las variables que faltan en función de las que siempre tiene.
Probablemente sea menos probable que encuentre una implementación buena y simple de este enfoque.
datos pequeños: para conjuntos de datos pequeños de los que será difícil aprender algo, consideraría elegir un método más avanzado que se ocupe del problema de la falta de datos o construir un modelo basado en algún tipo de conocimiento de dominio o Suposiciones