¿Cuáles son algunos paquetes de R que el científico de datos o un estadístico deben saber usar?

Para ser precisos, hay paquetes que se crean para la “ciencia de datos” y paquetes que se crean para estadísticas / aprendizaje automático. La ciencia de datos es un tema amplio y las interpretaciones varían, pero para empezar, uno debería saber cómo usar R contra “Big Data”, en particular Hadoop.

Hadoop
Usar R con Hadoop no aumentará su velocidad de procesamiento en comparación con la memoria nativa, pero le permitirá escalar. Hay una buena discusión publicada en ¿Cómo se pueden usar R y Hadoop juntos?

Procesamiento en paralelo
También se debe saber cómo usar el procesamiento paralelo en R, ya que será de gran ayuda cuando se ejecutan algoritmos que se pueden paralelizar. Para esto, hay varios paquetes que ofrecen procesamiento de múltiples núcleos y múltiples nodos. La Vista de tareas de CRAN sobre computación de alto rendimiento tiene una gran cantidad de buena información: Vista de tareas de CRAN: Computación paralela y de alto rendimiento con R.

Aprendizaje automático
Hay demasiados paquetes en R que proporcionan funcionalidades de Machine Learning. El que uso más comúnmente es el paquete caret. Caret le permite al profesional aprovechar varios algoritmos diferentes (gbm, randomForest, nnet, etc.) y paraleliza automáticamente tareas como la validación cruzada siempre que especifique el número de núcleos a utilizar. Es fácil de usar y ofrece muchas funciones útiles.
Verifique la presentación cuidadosa del autor del paquete disponible en el sitio del Grupo de usuarios de Lion Data Systems, LLC R. También tiene un enlace a la presentación de glmnet que puede resultarle interesante. La vista de tareas de aprendizaje automático tiene una muy buena compilación de todos los paquetes de aprendizaje automático comúnmente utilizados: vista de tareas CRAN: aprendizaje automático y aprendizaje estadístico.

Visualización
El sitio Cookbook for R “Cookbook for R tiene muchos buenos ejemplos de cómo usar ggplot2, un paquete de visualización líder en R. Para Big Data, Hadley Wickham también tiene un paquete llamado BigVis. Las diapositivas están disponibles en Page en meetup.com tiene muchos ejemplos: una grabación de video de la presentación de Hadley está disponible en NY Open Stats Programming Meetup – Hadley Wickham

Cursos
Por último, pero no menos importante, Stanford edX acaba de completar un curso exhaustivo sobre aprendizaje estadístico con R. Fue impartido por Trevor Hastie y Rob Tibshirani, ambos expertos líderes en el campo. El material del curso todavía está disponible en el aprendizaje estadístico.