Algunas cosas que he hecho para trabajar con datos faltantes o datos de calidad variable:
- Intente recopilar más datos si es posible y cree el modelo sobre los datos recopilados utilizando la instrumentación adecuada
- Si (1) no es posible, adopte métodos de limpieza de datos, como la imputación de valores nulos o faltantes. En este paso, es importante entender por qué los valores nulos o faltantes aparecieron en primer lugar. Por qué esto podría suceder para los datos del sensor, puede ser diferente de por qué puede ocurrir, por ejemplo, en alguna base de datos de información del cliente. A menos que sepamos la razón por la cual los datos son nulos, probablemente ignoremos algo importante
- Si ni (1) ni (2) son posibles, considere omitir aquellos registros que tienen valores de NA en una u otras características. Esto funciona solo si el número de valores NA / Nulo no es significativo en el conjunto de datos.
Si ni 1, 2 ni 3 no son posibles, pero tiene un modelo de dominio (como la comprensión de la ingeniería o la física del problema en cuestión), considere construir una simulación para modelar el problema y usar el modelo de simulación para comprender El sistema en cuestión.
- ¿Cómo se usan los datos?
- ¿Qué tipo de problemas no puede resolver Data Science?
- Como desarrollador de software interesado en Data Science y Machine Learning, ¿cómo comienzo a aprender Python y qué camino de aprendizaje sigo?
- ¿Cómo es útil Python en análisis de datos? ¿Qué características le dan una ventaja sobre otras herramientas de ciencia de datos?
- ¿Cuál es la demanda de big data?