¿Cuáles son los paquetes R más utilizados para la minería de datos o la ciencia de datos?

Si bien hay muchos paquetes R y muchas respuestas a esta pregunta, hay algunos paquetes R que son bastante útiles para muchos proyectos de ciencia de datos. La utilidad de un paquete R también depende de lo que intente hacer. Por ejemplo, la minería de texto tiene paquetes específicos como tm, ngram y stringr.

Al hacer un proyecto de ciencia de datos R, tiendo a usar los siguientes paquetes la mayor parte del tiempo y, por lo tanto, tiendo a cargarlos de forma predeterminada:

  1. dplyr: este paquete se utiliza para moldear, remodelar y limpiar datos. Este paquete ofrece comodidad cuando se trabaja con datos que no son necesariamente limpios. Puede unir conjuntos de datos, agregar nuevas columnas, realizar operaciones de canalización de datos, crear columnas calculadas, filtrar conjuntos de datos y mucho más con una simple llamada a la función.
  2. ggplot2: el sistema de trazado base de R hará el trabajo. Sin embargo, hay más trabajo por hacer para obtener una presentación agradable y lista de nuestra R, lo que equivale a una mayor codificación. GGplot2 ayuda a crear gráficos listos para presentaciones muy rápidamente. Ofrece rápido mediante el uso de funciones como qplot y gráficos altamente flexibles con la función ggplot.
  3. caret: Caret es el paquete estándar de aprendizaje automático en R. Puede usar caret para crear conjuntos de entrenamiento y ejecutar prácticamente cualquier algoritmo de aprendizaje automático (con algunas excepciones) en cuestión de segundos. Este paquete es instrumental para muchos proyectos de minería de datos y aprendizaje automático.
  4. randomForest: aunque caret es potente y tiene una función de bosque aleatorio, creo que el rendimiento de un algoritmo de bosque aleatorio es mejor cuando uso el paquete randomForest. Solo una preferencia personal, pero vale la pena usar.
  5. gbm / adabag: una vez más, otra preferencia personal, pero prefiero usar este paquete al ejecutar modelos de refuerzo y embolsado.

Estos son algunos buenos paquetes para comenzar con la ciencia de datos. Hay muchos paquetes que se pueden usar, así que siéntase libre de explorar y encontrar lo que le funcione. Siento que necesito dar una mención de honor a un paquete que no es necesariamente para la ciencia de datos, pero es extremadamente útil y ese es el paquete installR. Habrá momentos en los que desee actualizar R a la última versión. Esto no es lo más fácil de hacer. InstallR le permite ejecutar updateR () y la función lo guiará a través de la descarga e instalación de la última versión R e incluso migrará sobre sus paquetes.

Business Science Solutions es una empresa de transformación cuyo objetivo es revolucionar las empresas mediante el uso de procesos y ciencia de datos. ¡Visite nuestro sitio web en Bienvenido y regístrese en nuestra lista de correo electrónico! También ofrecemos contenido gratuito en forma de publicaciones de blog sobre temas de procesos y ciencia de datos. ¡También ampliaremos nuestras ofertas en las próximas semanas al ofrecer un libro electrónico gratuito, cursos de capacitación en línea y mucho más contenido! ¡Sigue revisando!