NUNCA arroje puntos de datos incorrectos sin saber por qué son esos puntos incorrectos.
La fecha NULL puede significar que los puntos de tiempo particulares ocurrieron antes del punto de tiempo más temprano en el sistema (comenzaron a registrar marcas de tiempo solo dos años después del inicio del sistema). Los valores NULL pueden significar un resultado en un error de medición, que por sí solo puede ser el predictor más importante en su problema. También pueden resultar de errores de análisis, en cuyo caso otros valores erróneos pueden deslizarse en sus datos que usted no notó.
En una nota más práctica, cuando veo valores nulos, primero consulto con el experto en el dominio de datos para verificar si nulo tiene un significado especial. A continuación verifico los errores de análisis. A continuación, hago varias comprobaciones rápidas y sucias para ver si existe una correlación entre otras piezas de información y los valores nulos. Es posible imputar los valores faltantes a los valores existentes (nunca lo he hecho yo solo, pero existe una gran cantidad de literatura sobre este tema). Al final, puede incluir valores nulos como valores variables distintos, descartar los registros por completo o utilizar métodos que puedan manejar inherentemente los valores faltantes (como los árboles de decisión).
- ¿Qué es el HTML? ¿Cuáles son las características que tiene sobre una representación de datos en texto plano?
- ¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?
- ¿En qué tipos de problemas de regresión son comparables las redes neuronales, las máquinas de vectores de soporte, los bosques aleatorios y las redes neuronales profundas? ¿La superioridad de los métodos depende del tamaño del entrenamiento?
- ¿Cuál es el estado de la investigación sobre chatbots y la PNL en 2017?
- ¿Es posible o valioso obtener otro doctorado en Machine Learning (Deep Learning) de una de las 50 mejores universidades de los Estados Unidos?