¿Podemos hacer aprendizaje automático escalable con R? ¿Puede R trabajar con Hadoop para procesar una matriz de 100 GB?

¡La respuesta en 2017 es un gran SÍ!

La forma de hacerlo es usando sparklyr, una interfaz para Spark usando RStudio.

La biblioteca MLB de sparklyr le proporciona todas las herramientas y controles que necesita para ejecutar paradigmas de aprendizaje automático en cualquier tamaño de datos en tiempo real o retrospectivos.

¿Cuál es la diferencia entre analista de datos y científico?
¿Cuáles son algunas aplicaciones donde el análisis de datos topológicos tiene una ventaja sobre otros enfoques de LD?
¿Cuál es la diferencia entre una maestría en análisis de negocios y big data y una maestría en ciencia de datos? ¿Qué habilidades necesitas dominar para cada uno?
¿Qué significa big data para los especialistas en marketing? ¿Cómo se maneja esto?
¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?

Biblioteca de aprendizaje automático de Spark (MLlib)

En sus propias palabras,

sparklyr proporciona enlaces a la biblioteca distribuida de aprendizaje automático de Spark. En particular, sparklyr le permite acceder a las rutinas de aprendizaje automático proporcionadas por el paquete spark.ml. Junto con la interfaz dplyr de sparklyr, puede crear y ajustar fácilmente flujos de trabajo de aprendizaje automático en Spark, orquestado completamente dentro de R.

sparklyr proporciona tres familias de funciones que puede usar con el aprendizaje automático de Spark:

Algoritmos de aprendizaje automático para analizar datos ( ml_* )
Transformadores de características para manipular características individuales ( ft_* )
Funciones para manipular Spark DataFrames ( sdf_* )

Apache HadoopData ScienceMachine LearningR

¿Es necesario implementar algoritmos principales de aprendizaje automático desde cero al menos una vez para obtener una pasantía en ciencia de datos en una empresa prestigiosa?

¿Cómo definimos objetivos y resultados clave (OKR) para el equipo de ciencia de datos?

¿Cuáles son algunas de las nuevas empresas de Big Data en Mumbai?

¿Cómo sabemos si los paquetes Python o R son correctos?

¿Cuáles son las diferencias entre los sockets de netlink y las llamadas ioctl?

El ícono de Machine Learning Xavier Amatriain dejó recientemente Netflix para unirse a Quora como vicepresidente de ingeniería. ¿Qué hará él allí? ¿Qué hizo a Quora lo suficientemente interesante como para unirse? ¿Qué nos tiene reservado Quora?

Hasta donde yo sé, el código abierto R no puede funcionar con tanto volumen de datos, debido a su enfoque de procesamiento en memoria.
pero tenemos las siguientes alternativas:
1) RevolutionAnalytics / RHadoop : el proyecto de Antonio Piccolboni tiene como objetivo llevar el poder del mapa a R.
2) Patrón | Cascada: una vez que tenga su modelo listo, puede exportarlo a un archivo PMML y luego usar esa biblioteca de patrones en cascada para calificar sus datos almacenados en HDFS. Internamente, Pattern utiliza Java Map Reduce, por lo que este volumen no debería ser un problema.
3) Consulte también los paquetes bigmemory y ff de R. Proporciona soporte para manejar archivos grandes. Pero eso es alrededor de 10 GB de datos.
Una vez más, este es mi entendimiento, estaría más que feliz de saber si hay mejores opciones.

Kshira Saagar

¿Puede informar una tarea de ejemplo con 100 GB de datos?

Observo que cada vez más personas parecen preocuparse demasiado por el tamaño de sus datos cuando no deberían.

Puede encontrar útil el siguiente artículo: no use Hadoop; sus datos no son tan grandes.

Además, ¿cuál es su idea sobre que las grandes empresas como MS y Yahoo a menudo encuentran más eficiente realizar análisis en un único servidor dedicado en lugar de máquinas distribuidas? Para hacerlo, sus datos deben procesarse de manera eficiente, pero este tipo de trabajo no pertenece a R, SPSS, SAS, Python …

Kshira Saagar

More Interesting

¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?

Cómo hacer una carrera en big data

¿Cuáles son algunos libros que debe tener un científico de datos?

Cómo elegir una carrera adecuada en el dominio de Big Data

¿Cómo es un día para un científico de bioinformática?

Cómo convertirse en un científico de datos como estudiante

¿Qué odias de la ciencia de datos?

Cómo aprender ciencia de datos y análisis desde un punto de vista de gestión

¿Quién puede sugerir un buen proyecto en el campo de la atención médica, la minería de datos y el aprendizaje automático que utilice el reconocimiento de imágenes?

Cómo aplicar la ciencia de datos a la asistencia sanitaria