Para ser precisos, hay paquetes que se crean para la “ciencia de datos” y paquetes que se crean para estadísticas / aprendizaje automático. La ciencia de datos es un tema amplio y las interpretaciones varían, pero para empezar, uno debería saber cómo usar R contra “Big Data”, en particular Hadoop.
Hadoop
Usar R con Hadoop no aumentará su velocidad de procesamiento en comparación con la memoria nativa, pero le permitirá escalar. Hay una buena discusión publicada en ¿Cómo se pueden usar R y Hadoop juntos?
Procesamiento en paralelo
También se debe saber cómo usar el procesamiento paralelo en R, ya que será de gran ayuda cuando se ejecutan algoritmos que se pueden paralelizar. Para esto, hay varios paquetes que ofrecen procesamiento de múltiples núcleos y múltiples nodos. La Vista de tareas de CRAN sobre computación de alto rendimiento tiene una gran cantidad de buena información: Vista de tareas de CRAN: Computación paralela y de alto rendimiento con R.
- ¿Quién proporciona la mejor certificación de ciencia de datos que puedo llevar junto con mi trabajo?
- Para cursos en línea de ciencia de datos / análisis; ¿Qué sería mejor: Edureka (Cubriendo R y Machine Learning) o AnalytixLabs (Cubriendo R, SAS y Excel)?
- ¿Los estadísticos y los expertos en big data serán reemplazados por computadoras?
- ¿Por qué es tan importante el Big Data?
- ¿Les resulta fácil a los físicos trabajar como científicos de datos?
Aprendizaje automático
Hay demasiados paquetes en R que proporcionan funcionalidades de Machine Learning. El que uso más comúnmente es el paquete caret. Caret le permite al profesional aprovechar varios algoritmos diferentes (gbm, randomForest, nnet, etc.) y paraleliza automáticamente tareas como la validación cruzada siempre que especifique el número de núcleos a utilizar. Es fácil de usar y ofrece muchas funciones útiles.
Verifique la presentación cuidadosa del autor del paquete disponible en el sitio del Grupo de usuarios de Lion Data Systems, LLC R. También tiene un enlace a la presentación de glmnet que puede resultarle interesante. La vista de tareas de aprendizaje automático tiene una muy buena compilación de todos los paquetes de aprendizaje automático comúnmente utilizados: vista de tareas CRAN: aprendizaje automático y aprendizaje estadístico.
Visualización
El sitio Cookbook for R “Cookbook for R tiene muchos buenos ejemplos de cómo usar ggplot2, un paquete de visualización líder en R. Para Big Data, Hadley Wickham también tiene un paquete llamado BigVis. Las diapositivas están disponibles en Page en meetup.com tiene muchos ejemplos: una grabación de video de la presentación de Hadley está disponible en NY Open Stats Programming Meetup – Hadley Wickham
Cursos
Por último, pero no menos importante, Stanford edX acaba de completar un curso exhaustivo sobre aprendizaje estadístico con R. Fue impartido por Trevor Hastie y Rob Tibshirani, ambos expertos líderes en el campo. El material del curso todavía está disponible en el aprendizaje estadístico.