¿Qué debo hacer cuando tengo una cita con las características NULL?

NUNCA arroje puntos de datos incorrectos sin saber por qué son esos puntos incorrectos.

La fecha NULL puede significar que los puntos de tiempo particulares ocurrieron antes del punto de tiempo más temprano en el sistema (comenzaron a registrar marcas de tiempo solo dos años después del inicio del sistema). Los valores NULL pueden significar un resultado en un error de medición, que por sí solo puede ser el predictor más importante en su problema. También pueden resultar de errores de análisis, en cuyo caso otros valores erróneos pueden deslizarse en sus datos que usted no notó.

En una nota más práctica, cuando veo valores nulos, primero consulto con el experto en el dominio de datos para verificar si nulo tiene un significado especial. A continuación verifico los errores de análisis. A continuación, hago varias comprobaciones rápidas y sucias para ver si existe una correlación entre otras piezas de información y los valores nulos. Es posible imputar los valores faltantes a los valores existentes (nunca lo he hecho yo solo, pero existe una gran cantidad de literatura sobre este tema). Al final, puede incluir valores nulos como valores variables distintos, descartar los registros por completo o utilizar métodos que puedan manejar inherentemente los valores faltantes (como los árboles de decisión).

More Interesting

¿Cuál es la diferencia entre Hadoop y Teradata aster?

¿Qué es la factorización de bajo rango y cuáles son sus aplicaciones en el aprendizaje automático?

Cómo dibujar un múltiple de un autoencoder variacional en Keras

¿Con qué facilidad pueden los actuarios cambiar a carreras relacionadas con TI como la ciencia de datos, el aprendizaje automático y el desarrollo de software?

¿Cómo se hizo Andrew Ng tan bueno en Machine Learning?

¿Hay algún lugar en la ciencia donde la biblioteca estadística de Python sea pobre o inmadura en comparación con R?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Es útil entrenar a AlphaGo jugando contra sí mismo?

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

¿Cómo se aplica la inteligencia artificial a los problemas ambientales?

Cómo calcular la precisión y recordar para la clasificación, donde ambas clases son igualmente importantes

En el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?

¿Cómo se encuentran los trabajos de consultoría en machine learning + PNL?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

Cómo usar el pronóstico de series de tiempo para predecir el tiempo que tomaría realizar alguna tarea