¿Qué es la limpieza de datos como en Machine Learning y cómo se hace?

La limpieza de datos es el proceso de limpieza / estandarización de los datos para prepararlos para el análisis. La mayoría de las veces, habrá discrepancias en los datos capturados, como formatos de datos incorrectos, datos faltantes, errores al capturar los datos. Este es un paso importante en cualquier proyecto de ciencia de datos dado que la precisión de los resultados depende en gran medida de los datos que usamos.

Algunos ejemplos comunes de limpieza de datos son:

  1. Cuando obtenemos datos de varias fuentes, los datos pueden estar en un formato diferente. Por ejemplo, si los datos se refieren al “Monto de compra”, estarán en INR para India y USD para EE. UU. Por lo tanto, es necesario llevarlos a todos a un formato estándar para su posterior uso en análisis / modelado.
  2. Estandarizar el formato de hora ya que diferentes personas estarán en diferentes zonas horarias. Por ejemplo, convertir todo el tiempo a GMT puede ser una forma.
  3. Los indios usan la fecha como DD-MM-AA mientras que en EE. UU. Es MM-DD-AA, por lo que es necesario llevarlos al mismo formato.
  4. Eliminación de caracteres especiales como comas presentes entre números.
  5. En el caso del análisis de texto, se deben realizar algunos trabajos de limpieza más, como
    1. Eliminación de caracteres especiales.
    2. Eliminación de palabras de detención
    3. Eliminación de etiquetas HTML si los datos se eliminan de la web
  6. La imputación de datos es una parte importante de la limpieza de datos. Cuando faltan los datos, es necesario asegurarse de que se manejan adecuadamente en el paso de limpieza de datos. Algunas metodologías comunes de imputación son
    1. Para variables continuas,
      1. Imputación media / mediana
      2. Utilice un valor que esté fuera del rango de la variable en el caso de modelos basados ​​en árboles.
      3. Usando algunos modelos para predecir los valores faltantes
      4. Utilice un valor basado en el método de captura de datos / conocimiento empresarial.
    2. Para variables categóricas,
      1. Usando la categoría más común
      2. Usando una categoría separada para valores perdidos
      3. Usar una categoría basada en el conocimiento del dominio

Espero que esto ayude.!

Podría ser tan simple como completar los valores perdidos, ya sea con la media, la mediana o omitiendo entradas debido a los valores faltantes.

A veces los datos necesitarían algunas transformaciones para ser útiles. EG Cambio de formatos de fecha.

Algunas veces los datos serían semiestructurados o no estructurados. Es posible que necesitemos extraer lo que queremos de él.

Verifique la información del paquete dplyr R. Entenderás más.

Introducción a dplyr

La limpieza de datos también se denomina limpieza de datos.

A medida que los datos sin procesar se extraen y recopilan de la base de datos, es posible que encuentre algunos errores humanos, es decir, al escribir, ingresar, y algunos son los valores que tienen NA (no disponible) y valores faltantes y Nulo y algunos de los datos que tienen valores atípicos, es decir, los datos se desvía de la normalidad. Para realizar estos cambios en los datos, tenemos que hacer un proceso de limpieza de datos y también se llama una etapa de preprocesamiento de datos.