¿Qué es la limpieza de datos como en Machine Learning y cómo se hace?

La limpieza de datos es el proceso de limpieza / estandarización de los datos para prepararlos para el análisis. La mayoría de las veces, habrá discrepancias en los datos capturados, como formatos de datos incorrectos, datos faltantes, errores al capturar los datos. Este es un paso importante en cualquier proyecto de ciencia de datos dado que la precisión de los resultados depende en gran medida de los datos que usamos.

Algunos ejemplos comunes de limpieza de datos son:

Cuando obtenemos datos de varias fuentes, los datos pueden estar en un formato diferente. Por ejemplo, si los datos se refieren al “Monto de compra”, estarán en INR para India y USD para EE. UU. Por lo tanto, es necesario llevarlos a todos a un formato estándar para su posterior uso en análisis / modelado.
Estandarizar el formato de hora ya que diferentes personas estarán en diferentes zonas horarias. Por ejemplo, convertir todo el tiempo a GMT puede ser una forma.
Los indios usan la fecha como DD-MM-AA mientras que en EE. UU. Es MM-DD-AA, por lo que es necesario llevarlos al mismo formato.
Eliminación de caracteres especiales como comas presentes entre números.
En el caso del análisis de texto, se deben realizar algunos trabajos de limpieza más, como

Eliminación de caracteres especiales.
Eliminación de palabras de detención
Eliminación de etiquetas HTML si los datos se eliminan de la web

La imputación de datos es una parte importante de la limpieza de datos. Cuando faltan los datos, es necesario asegurarse de que se manejan adecuadamente en el paso de limpieza de datos. Algunas metodologías comunes de imputación son

Para variables continuas,

Imputación media / mediana
Utilice un valor que esté fuera del rango de la variable en el caso de modelos basados en árboles.
Usando algunos modelos para predecir los valores faltantes
Utilice un valor basado en el método de captura de datos / conocimiento empresarial.

Para variables categóricas,

Usando la categoría más común
Usando una categoría separada para valores perdidos
Usar una categoría basada en el conocimiento del dominio

Espero que esto ayude.!

Related Content

Cómo saber si estoy listo para una entrevista de ciencia de datos

¿Qué tecnologías hay en Big Data?

¿Debo seguir escribiendo aplicaciones móviles o ciencia de datos?

¿Qué programación es beneficiosa para los científicos de datos?

Cómo dominar la programación de Python para trabajos de ciencia de datos

Si escribo una disertación sobre el impacto de Big Data en una industria específica, ¿necesito aprender Análisis de datos?

Al reiniciar mi computadora portátil satelital Toshiba, aparece ‘INACCESSIBLE_BOOT_DEVICE’ con una pantalla azul. ¿Cómo puedo arreglarlo?

Podría ser tan simple como completar los valores perdidos, ya sea con la media, la mediana o omitiendo entradas debido a los valores faltantes.

A veces los datos necesitarían algunas transformaciones para ser útiles. EG Cambio de formatos de fecha.

Algunas veces los datos serían semiestructurados o no estructurados. Es posible que necesitemos extraer lo que queremos de él.

Verifique la información del paquete dplyr R. Entenderás más.

Introducción a dplyr

Sarnath K

La limpieza de datos también se denomina limpieza de datos.

A medida que los datos sin procesar se extraen y recopilan de la base de datos, es posible que encuentre algunos errores humanos, es decir, al escribir, ingresar, y algunos son los valores que tienen NA (no disponible) y valores faltantes y Nulo y algunos de los datos que tienen valores atípicos, es decir, los datos se desvía de la normalidad. Para realizar estos cambios en los datos, tenemos que hacer un proceso de limpieza de datos y también se llama una etapa de preprocesamiento de datos.

Sudalai Rajkumar S

More Interesting

¿Cómo podemos analizar y consultar sobre el diseño, implementación y evaluación de un algoritmo?

¿Por qué el Titanic de Kaggle: Machine Learning del desastre es un problema de aprendizaje supervisado?

¿Cuál es la estructura de datos más eficiente para admitir agregar al final del conjunto, así como acceder o actualizar el i-ésimo valor?

¿Qué son los momentos en las estadísticas? ¿Qué nos proporcionan sobre la distribución de datos?

¿El maestro de ciencia de datos es demasiado técnico?

Cómo encontrar aplicaciones de big data

Cómo implementar big data como Quora en mi sitio web para mostrar solo cosas interesadas por el usuario

¿Cuál es la correlación entre PNL, IA, aprendizaje automático, big data y ciencia de datos? ¿Existe una jerarquía o algo en común entre estos? ¿Cómo se relacionan estos problemas con el mundo real?

¿Qué hace que un estadístico sea único?

¿Quién puede aprender big data?

¿Cómo es Data Mining and Predictive Analytics, de Chantal d larose?

¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?

¿Cuál es la diferencia entre hacer ciencia de datos en Google, Amazon y WalmartLabs y hacerlo en Mu Sigma, Accenture y Opera Solutions?

Cómo comenzar a analizar datos usando R

Después de Big Data, Smart Data es una tendencia en 2013. Entonces, ¿qué es Smart Data? ¿Tienes alguna definición clara?

Web Analytics