Cómo lidiar con la falta de disponibilidad de datos o datos incorrectos para resolver problemas de ciencia de datos

Algunas cosas que he hecho para trabajar con datos faltantes o datos de calidad variable:

  1. Intente recopilar más datos si es posible y cree el modelo sobre los datos recopilados utilizando la instrumentación adecuada
  2. Si (1) no es posible, adopte métodos de limpieza de datos, como la imputación de valores nulos o faltantes. En este paso, es importante entender por qué los valores nulos o faltantes aparecieron en primer lugar. Por qué esto podría suceder para los datos del sensor, puede ser diferente de por qué puede ocurrir, por ejemplo, en alguna base de datos de información del cliente. A menos que sepamos la razón por la cual los datos son nulos, probablemente ignoremos algo importante
  3. Si ni (1) ni (2) son posibles, considere omitir aquellos registros que tienen valores de NA en una u otras características. Esto funciona solo si el número de valores NA / Nulo no es significativo en el conjunto de datos.

Si ni 1, 2 ni 3 no son posibles, pero tiene un modelo de dominio (como la comprensión de la ingeniería o la física del problema en cuestión), considere construir una simulación para modelar el problema y usar el modelo de simulación para comprender El sistema en cuestión.

More Interesting

Al usar una muestra para análisis estadístico, ¿cómo puedo asegurarme de que sea suficiente?

¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?

¿Se saturará el mercado laboral para estadísticos y científicos de datos en los Estados Unidos en los próximos 5 años?

¿Qué piensan los empleadores sobre las menciones de las competencias de Kaggle en una solicitud de empleo?

Cómo estimar errores debido al peso de los datos

¿Es la ciencia de datos el fin de las estadísticas?

¿Cuánto tiempo puede un principiante aprender ciencia de datos?

En el aprendizaje automático, ¿por qué utilizamos un tercio de los datos para las pruebas y dos tercios para la capacitación? ¿Es sentido común o hay una razón científica?

¿Qué habilidades y práctica necesito para ingresar al campo de la ciencia de datos? Además, ¿cuáles son las diferentes oportunidades y opciones para lo mismo?

¿En qué industrias se requiere Big Data?

¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?

¿Cuáles son las 10 principales expectativas de los clientes de Big Data?

¿Cuáles son algunos algoritmos de recuperación de información de los que siempre debe tener una sólida comprensión y por qué?

Cómo decidir entre aprender un modelo para cada usuario o un modelo único a partir de todos los datos

Cómo convertirse en ingeniero de aprendizaje automático si tengo experiencia en ciencia de datos / ingeniería no ML