La limpieza de datos es el proceso de limpieza / estandarización de los datos para prepararlos para el análisis. La mayoría de las veces, habrá discrepancias en los datos capturados, como formatos de datos incorrectos, datos faltantes, errores al capturar los datos. Este es un paso importante en cualquier proyecto de ciencia de datos dado que la precisión de los resultados depende en gran medida de los datos que usamos.
Algunos ejemplos comunes de limpieza de datos son:
- Cuando obtenemos datos de varias fuentes, los datos pueden estar en un formato diferente. Por ejemplo, si los datos se refieren al “Monto de compra”, estarán en INR para India y USD para EE. UU. Por lo tanto, es necesario llevarlos a todos a un formato estándar para su posterior uso en análisis / modelado.
- Estandarizar el formato de hora ya que diferentes personas estarán en diferentes zonas horarias. Por ejemplo, convertir todo el tiempo a GMT puede ser una forma.
- Los indios usan la fecha como DD-MM-AA mientras que en EE. UU. Es MM-DD-AA, por lo que es necesario llevarlos al mismo formato.
- Eliminación de caracteres especiales como comas presentes entre números.
- En el caso del análisis de texto, se deben realizar algunos trabajos de limpieza más, como
- Eliminación de caracteres especiales.
- Eliminación de palabras de detención
- Eliminación de etiquetas HTML si los datos se eliminan de la web
- La imputación de datos es una parte importante de la limpieza de datos. Cuando faltan los datos, es necesario asegurarse de que se manejan adecuadamente en el paso de limpieza de datos. Algunas metodologías comunes de imputación son
- Para variables continuas,
- Imputación media / mediana
- Utilice un valor que esté fuera del rango de la variable en el caso de modelos basados en árboles.
- Usando algunos modelos para predecir los valores faltantes
- Utilice un valor basado en el método de captura de datos / conocimiento empresarial.
- Para variables categóricas,
- Usando la categoría más común
- Usando una categoría separada para valores perdidos
- Usar una categoría basada en el conocimiento del dominio
Espero que esto ayude.!
- ¿Qué es la programación de análisis de datos?
- ¿Cuál es el propósito de los servicios de transformación de datos?
- ¿Cuál es la mejor manera de evaluar los tiempos de respuesta de AB?
- ¿Qué certificación de Big Data es mejor en términos de aprendizaje y valor?
- ¿Qué pasos se deben tomar para tener una comprensión rigurosa de la ciencia de datos (lado teórico, especialmente)?