¿Debo aprender R o Spark para computación de alto rendimiento?

R es un lenguaje. Spark es una plataforma para el procesamiento de datos paralelos a gran escala. No son mutuamente exclusivos. SparkR, por ejemplo, es la interfaz de lenguaje R para Spark.

R, como lenguaje, es el más adecuado y está diseñado para la programación estadística. Se puede usar como un lenguaje multipropósito, pero es difícil de usar para la programación general. No es específicamente un lenguaje para la informática de alto rendimiento, pero puede acceder a las tecnologías HPC a través de él (SparkR es un ejemplo).

Spark es bastante específico para cierto tipo de computación de alto rendimiento. Hay enlaces de lenguaje para esto en Java, Scala, R, Python, C #, Groovy y Clojure. Proporciona un marco para manejar datos y distribuir operaciones en los datos de manera eficiente y a escala.

No es una o ninguna perspectiva. Si desea hacer un trabajo estadístico, o usar algunas de las bibliotecas de aprendizaje automático de R, entonces, por supuesto, elija R. Si está tan contento con otra cosa, úsela. Si desea utilizar Spark y R juntos, investigue SparkR.

Solo me gustaría agregar que, si quieres usar Spark y R juntos, puedes echar un vistazo a sparklyR. Puede probar un tutorial gratuito aquí: Introducción a Spark en R con sparklyr.

También creo que es una historia en la que siempre ganas si puedes agregar más herramientas a tu conjunto de habilidades, pero también entiendo que tu tiempo es limitado, como mencionas en los comentarios a esta pregunta. Usar R en combinación con Spark es especialmente bueno si desea hacer visualización, exploración de datos o algún trabajo estadístico pesado. Puede leer más sobre esto en mi respuesta a ¿Se considera que R no es adecuado para Big Data en comparación con Python?

More Interesting

Cómo pasar del desarrollo de pila completa al aprendizaje automático en el trabajo independiente

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cuál es el peor caso de sobreajuste que hayas visto en entornos sociales o psicológicos?

¿Qué biblioteca de PNL cubre la mayoría de los idiomas para un proyecto de análisis de sentimientos?

¿Cuáles son algunas limitaciones de un enfoque bayesiano?

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?

¿Qué llamarías técnicas de aprendizaje no automático?

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿Cuáles son los 10 problemas principales en Machine Learning para 2014?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Qué algoritmos de aprendizaje automático utilizan servicios como wit.ai y api.ai?

¿Qué marco de trabajo en el aprendizaje automático puede manejar grandes conjuntos de datos?

¿Qué se entiende por agrupamiento jerárquico aglomerativo?

¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?