Cómo limpiar, preparar y transformar datos en ciencia de datos

La mayoría de mis proyectos están relacionados con PNL, por lo que los datos con los que suelo trabajar son datos de texto. Para comenzar a procesar datos de texto, debe completar los siguientes pasos necesarios:

  1. Tokenización , que significa dividir un flujo de texto en palabras, frases, símbolos u otros elementos significativos llamados tokens.
  2. La derivación , el proceso de reducir las palabras flexionadas (o algunas veces derivadas) a su forma de raíz, base o raíz. Necesitamos esto para eliminar la diferencia entre las palabras ‘correr’, ‘correr’ y ‘correr’, por ejemplo.
  3. Descapitalización Porque no queremos que las palabras ‘Datos’ y ‘datos’ se consideren como palabras diferentes.

Después de haber limpiado los datos, hay varias formas de transformarlos.

El más simple es la Bolsa de palabras. Esta es una matriz, donde cada matriz corresponde a un texto particular de su corpus, y cada columna representa una palabra.

También los n-gramas son populares, así como las representaciones de Word2Vec. En resumen, depende de lo que realmente va a hacer con sus datos. Las tareas simples como la clasificación de texto pueden manejarse bien solo con la Bolsa de palabras, mientras que el análisis de sentimientos o la detección de engaños requieren representaciones mucho más complicadas.

Obtención y limpieza de datos – Ciencia de datos

La LIMPIEZA DE DATOS (a veces también denominada limpieza de datos o depuración de datos) es el acto de detectar y eliminar o corregir registros corruptos o inexactos de un conjunto de registros, tabla o base de datos. Utilizado principalmente en la limpieza de bases de datos, el proceso aplica la identificación de elementos de datos incompletos, incorrectos, inexactos, irrelevantes, etc. y luego reemplaza, modifica o elimina esta información “sucia”.

El siguiente paso después de la limpieza de datos es la reducción de datos. Esto incluye definir y extraer atributos, disminuir las dimensiones de los datos, representar los problemas a resolver, resumir los datos y seleccionar partes de los datos para el análisis.

En general, para ser clasificados como de “alta calidad”, los datos deben pasar un conjunto de criterios firmes y exigentes. Estos incluyen:

Precisión: un valor agregado sobre los criterios de integridad, consistencia y densidad.

Para más información, haga clic en el enlace de abajo.

Obtención y limpieza de datos – Ciencia de datos

Para un dato numérico, es posible que desee eliminar los valores faltantes, NA al principio. Esto se puede hacer fácilmente en R con menos comandos.

Para los datos textuales, la tokenización, la eliminación de espacios en blanco, la puntuación, las palabras vacías, la derivación pueden ser todos los pasos posibles para limpiar los datos para su posterior análisis.

Todo depende de qué tipo de datos tenga. Espero que esto ayude.

Aprendí y estudié el lenguaje de programación Python, así que cuando necesito limpiar, preparar o transformar datos, simplemente escribo un nuevo script Python.

También herramientas como OpenRefine son muy útiles.

Ejemplo de ordenar datos con R: Ranking Mundial de Universidades | Kaggle

Hoja de trucos: https://www.rstudio.com/wp-conte