¿Cuáles son algunos paquetes de R que el científico de datos o un estadístico deben saber usar?

Para ser precisos, hay paquetes que se crean para la “ciencia de datos” y paquetes que se crean para estadísticas / aprendizaje automático. La ciencia de datos es un tema amplio y las interpretaciones varían, pero para empezar, uno debería saber cómo usar R contra “Big Data”, en particular Hadoop.

Hadoop
Usar R con Hadoop no aumentará su velocidad de procesamiento en comparación con la memoria nativa, pero le permitirá escalar. Hay una buena discusión publicada en ¿Cómo se pueden usar R y Hadoop juntos?

Procesamiento en paralelo
También se debe saber cómo usar el procesamiento paralelo en R, ya que será de gran ayuda cuando se ejecutan algoritmos que se pueden paralelizar. Para esto, hay varios paquetes que ofrecen procesamiento de múltiples núcleos y múltiples nodos. La Vista de tareas de CRAN sobre computación de alto rendimiento tiene una gran cantidad de buena información: Vista de tareas de CRAN: Computación paralela y de alto rendimiento con R.

Aprendizaje automático
Hay demasiados paquetes en R que proporcionan funcionalidades de Machine Learning. El que uso más comúnmente es el paquete caret. Caret le permite al profesional aprovechar varios algoritmos diferentes (gbm, randomForest, nnet, etc.) y paraleliza automáticamente tareas como la validación cruzada siempre que especifique el número de núcleos a utilizar. Es fácil de usar y ofrece muchas funciones útiles.
Verifique la presentación cuidadosa del autor del paquete disponible en el sitio del Grupo de usuarios de Lion Data Systems, LLC R. También tiene un enlace a la presentación de glmnet que puede resultarle interesante. La vista de tareas de aprendizaje automático tiene una muy buena compilación de todos los paquetes de aprendizaje automático comúnmente utilizados: vista de tareas CRAN: aprendizaje automático y aprendizaje estadístico.

Visualización
El sitio Cookbook for R “Cookbook for R tiene muchos buenos ejemplos de cómo usar ggplot2, un paquete de visualización líder en R. Para Big Data, Hadley Wickham también tiene un paquete llamado BigVis. Las diapositivas están disponibles en Page en meetup.com tiene muchos ejemplos: una grabación de video de la presentación de Hadley está disponible en NY Open Stats Programming Meetup – Hadley Wickham

Cursos
Por último, pero no menos importante, Stanford edX acaba de completar un curso exhaustivo sobre aprendizaje estadístico con R. Fue impartido por Trevor Hastie y Rob Tibshirani, ambos expertos líderes en el campo. El material del curso todavía está disponible en el aprendizaje estadístico.

Aquí están los que uso normalmente:

  • caTools: conjunto de datos de división, misc. funciones (codificación base64)
  • ROCR: Necesitará esto para ver su curva ROCR y calcular su valor de AUC.
  • ratones: datos de imputación
  • e1071: Funciones varias del Departamento de Estadística (e1071), TU Wien
  • rpart y rpart.plot: árboles de regresión
  • randomForest: como su nombre lo dice randomForest
  • caret: ajuste del modelo con remuestreo
  • flexclust: agrupamiento
  • ggplot2: el paquete de trazado más intuitivo en R
  • gbm: modelos potenciados generalizados en R
  • plyr: todas sus divisiones, aplicaciones, etc. se realizan de manera fácil
  • data.table: operaciones más rápidas de unión y lectura de archivos.

Actualización: Mi lista se cruza completamente con la lista de Janu Verma. Lo noté más tarde. Se agregaron descripciones para cada paquete. Se agregó plyr y data.table más adelante.

Cuando se trata de modelar, realmente depende del problema. Sin embargo, casi todos necesitan que sus datos se procesen antes de la parte de modelado.
Para esto, miraría los paquetes de Hadley Wickham (had.co.nz): plyr, tidyr y dplyr.
dplyr cambió por completo la forma en que escribo el código R, y sé que no soy el único que piensa de esta manera. Además, a menudo tiene un rendimiento superior sobre los scripts R básicos.

Un buen lugar para comenzar es la hoja de trucos de discusión de datos: Página en rstudio.com

Mucho dependerá de lo que necesite hacer, tanto en términos de paquetes como de funciones en esos paquetes.

Ciertamente, aprender bien un paquete de gráficos es una buena idea. Yo uso principalmente gráficos básicos, con algunos enrejados y algunos ggplot2.

El paquete Hmisc tiene muchas cosas ordenadas. MASS es un paquete (aunque viene con R) que casi todos usarán. Pero mucho de eso también es gusto personal: ¿qué paquete de regresión? Prefiero el automóvil, pero eso no significa que otros paquetes no sean buenos.

Ver
La respuesta de Janu Verma a R (software): ¿Cuáles son los mejores paquetes de aprendizaje automático en R?

Con respecto a data.table, puede consultar la hoja de trucos de sintaxis data.table en la hoja de trucos de data.table – DataCamp Blog