Cómo aprender a limpiar datos usando R rápidamente

Basic recomienda comprender y limpiar datos

dim (): muestra el número de filas y columnas.

head (): primeras cinco filas de filas.

Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)
¿Qué son los modelos mixtos en términos simples?
Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas
¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.
¿ISRO utiliza una inteligencia artificial?

mode () – el modo de almacenamiento de una variable.

class (): la clase de objeto de una variable.

mean () – encuentra el promedio, es decir, la edad promedio.

niveles () – niveles del factor.

subset () – subconjunto de datos.

Biblioteca de limpieza:

biblioteca (plyr)
biblioteca (dplyr)
biblioteca (tidyr)
biblioteca (stringr)

DataCombine por christophergandrud

Reemplazo de cuerda

sub () reemplaza la primera aparición
gsub () reemplaza todas las ocurrencias.
merge () para combinar marcos de datos
sort () ordenando una matriz
order () devuelve índices para la fila ordenada
data [order (),] reordena todo el marco de datos basado en la columna
melt () en el paquete reshape2, esto es para remodelar datos
rbind () agregando más filas a un marco de datos.

Consulte este enlace para obtener información detallada: https://cran.r-project.org/doc/c…

Related Content

¿Cuáles son algunos proyectos de investigación interesantes relacionados con el aprendizaje automático?

¿Cuál es la distribución condicional completa?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

¿Hay alguna empresa india que trabaje con IA y aprendizaje automático? En caso afirmativo, ¿en qué campo y en qué se diferencia de otros en ese campo?

Cómo construir una aplicación de Android orientada al aprendizaje automático

¿En qué se diferencia el estado oculto (h) de la memoria (c) en una celda LSTM?

Puede limpiar los datos rápidamente con el paquete dplyr. Descargue también la hoja de trucos de discusión de datos de https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

Espero que ayude.

Rahul RM

More Interesting

¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿Qué es el condicionamiento en el aprendizaje seq2seq?

¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

¿Funciona el aprendizaje profundo si las entradas están en un espacio dimensional relativamente bajo?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

Cómo saber si una startup tecnológica que ofrece soluciones empresariales que utilizan el aprendizaje exclusivo en profundidad está tratando de estafar a mi empresa

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Cómo lidian las personas con visión artificial con el sobreajuste?

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

Cómo convertir datos categóricos en numéricos por Excel

¿Cuál es la divergencia KL entre un Gaussiano y un Student-t?

¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?

¿Cuáles son los casos de uso del uso del procesamiento del lenguaje natural (PNL) en diversas industrias?

Web Analytics