Cómo aprender a limpiar datos usando R rápidamente

Basic recomienda comprender y limpiar datos

dim (): muestra el número de filas y columnas.

head (): primeras cinco filas de filas.

mode () – el modo de almacenamiento de una variable.

class (): la clase de objeto de una variable.

mean () – encuentra el promedio, es decir, la edad promedio.

niveles () – niveles del factor.

subset () – subconjunto de datos.

Biblioteca de limpieza:

biblioteca (plyr)
biblioteca (dplyr)
biblioteca (tidyr)
biblioteca (stringr)

DataCombine por christophergandrud

Reemplazo de cuerda

  • sub () reemplaza la primera aparición
  • gsub () reemplaza todas las ocurrencias.
  • merge () para combinar marcos de datos
  • sort () ordenando una matriz
  • order () devuelve índices para la fila ordenada
  • data [order (),] reordena todo el marco de datos basado en la columna
  • melt () en el paquete reshape2, esto es para remodelar datos
  • rbind () agregando más filas a un marco de datos.

Consulte este enlace para obtener información detallada: https://cran.r-project.org/doc/c…

Puede limpiar los datos rápidamente con el paquete dplyr. Descargue también la hoja de trucos de discusión de datos de https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

Espero que ayude.

More Interesting

¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿Qué es el condicionamiento en el aprendizaje seq2seq?

¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

¿Funciona el aprendizaje profundo si las entradas están en un espacio dimensional relativamente bajo?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

Cómo saber si una startup tecnológica que ofrece soluciones empresariales que utilizan el aprendizaje exclusivo en profundidad está tratando de estafar a mi empresa

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Cómo lidian las personas con visión artificial con el sobreajuste?

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

Cómo convertir datos categóricos en numéricos por Excel

¿Cuál es la divergencia KL entre un Gaussiano y un Student-t?

¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?

¿Cuáles son los casos de uso del uso del procesamiento del lenguaje natural (PNL) en diversas industrias?