¡La respuesta en 2017 es un gran SÍ!
La forma de hacerlo es usando sparklyr, una interfaz para Spark usando RStudio.
La biblioteca MLB de sparklyr le proporciona todas las herramientas y controles que necesita para ejecutar paradigmas de aprendizaje automático en cualquier tamaño de datos en tiempo real o retrospectivos.
- ¿Cuál es la diferencia entre analista de datos y científico?
- ¿Cuáles son algunas aplicaciones donde el análisis de datos topológicos tiene una ventaja sobre otros enfoques de LD?
- ¿Cuál es la diferencia entre una maestría en análisis de negocios y big data y una maestría en ciencia de datos? ¿Qué habilidades necesitas dominar para cada uno?
- ¿Qué significa big data para los especialistas en marketing? ¿Cómo se maneja esto?
- ¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?
Biblioteca de aprendizaje automático de Spark (MLlib)
En sus propias palabras,
sparklyr proporciona enlaces a la biblioteca distribuida de aprendizaje automático de Spark. En particular, sparklyr le permite acceder a las rutinas de aprendizaje automático proporcionadas por el paquete spark.ml. Junto con la interfaz dplyr de sparklyr, puede crear y ajustar fácilmente flujos de trabajo de aprendizaje automático en Spark, orquestado completamente dentro de R.
sparklyr proporciona tres familias de funciones que puede usar con el aprendizaje automático de Spark:
- Algoritmos de aprendizaje automático para analizar datos (
ml_*
) - Transformadores de características para manipular características individuales (
ft_*
) - Funciones para manipular Spark DataFrames (
sdf_*
)