Uso el estándar R por la misma razón por la que no actualizo mi sistema operativo poco después de que se lanza uno nuevo: no quiero ser parte de la misma ola de usuarios de prueba y lidiar con los dolores de cabeza en mi trabajo diario. Microsoft R Open “existió” como parte de Revolution Analytics, y desde antes no me motivó lo suficiente como para migrar:
Revolución Analytics – Wikipedia
Principalmente porque (en la medida en que lo entendí) se me pidió que usara varias funciones `rx ` para obtener lo que se prometió al usar la variante de R. Siendo la mayoría de las funciones que uso no creadas en `rx` o Mi escepticismo de que alguna vez podrían seguir creando suficientes funciones `rx` para mis necesidades diarias se sumaron. Con la línea lo suficientemente borrosa para mí, la promesa de múltiples hilos nunca es realmente atractiva. Tenga en cuenta que esto se debe principalmente a las promesas de administración de memoria y subprocesos múltiples.
- ¿Es útil la programación competitiva para aprender ciencia de datos, o es solo una pérdida de tiempo?
- ¿Cuáles son los pros y los contras de una carrera en finanzas cuantitativas en comparación con una carrera en ciencia de datos para personas con antecedentes en física / matemáticas?
- ¿Qué información buscará un científico de datos en un conjunto de datos de un procesador de pagos en línea que consta de transacciones, información comercial y otra información sobre negocios comerciales?
- ¿Los científicos de datos piensan que Hadoop tiene errores?
- ¿Alguien puede ayudarme a estudiar conferencias de análisis de Jigsaw Academy?
Sin embargo, esto no quiere decir que piense que Microsoft R Open no tiene su atractivo, y aquí es donde difiero un poco de otras respuestas (y por qué consideré publicar una también).
El mayor punto de venta para mí en Microsoft R Open es ** la reproducibilidad ** en lugar del multihilo (ya que tiendo a reconsiderar las alternativas o la forma en que manejo la lógica del problema si el conjunto de datos es lo suficientemente grande como para garantizar múltiples -hilo).
Por ejemplo, en cuanto a la reproducibilidad: Stackoverflow es el rey en los ejemplos de fragmentos de código, pero no menos vulnerable a las funciones inexistentes en desuso (la mayoría de las veces me golpearon en ggplot2). Hasta donde sé, en R te quedas adivinando las soluciones, en Microsoft R Open, usas * checkpoint *:
Reproducibilidad: uso de instantáneas fijas del repositorio CRAN
Esto es reproducibilidad en su máxima expresión. Seguramente, esto no le ahorrará la molestia de los fragmentos de código existentes, pero asegurará que sus computadoras portátiles vivan para ver otro día en laboratorios o incluso grupos de empresas que no pueden permitirse el lujo de mantener tanto el sistema final como las computadoras portátiles que muestran partes de él.
En lo que respecta a R Studio, veo esto como un problema separado para usar R o Microsoft R Open, ya que parece que puedes usar Microsoft R Open en R Studio (como era de esperar, ya que R Studio es solo un IDE que aún pregunte dónde están ubicados sus binarios R en la computadora si no lo instaló primero desde CRAN):
Uso de Microsoft R Open con RStudio
Quizás donde Microsoft R Open brilla más es cuando pasas de él a lo que se basa en él:
Microsoft R Client y Microsoft R Server (aparentemente ahora etiquetado como Machine Learning Server).
2min Video –
o una vista más general de 2 minutos de video:
Como analogía, cuando trabajas con R, obtienes un par de cosas extra:
- R brillante
- Diapositivas R (o como se llame actualmente)
- Cuadernos R
- Scripts R
Cuando migras a Microsoft R Open, obtienes 2 adicionales:
- Cliente Microsoft R
- Servidor Microsoft R (o Servidor ML, etc.)
Entonces, nuevamente, reutilice su código R tal como está, envuelva algunas funciones agradables como lo haría en R Shiny, y listo, lo tiene desplegable ahora dentro de Microsoft SQL Server Platform.
Esto no le afectará en general en un grupo de investigación, pero si trabaja en una organización que tiene usuarios de BI que operan principalmente en herramientas como Databases + Tableau, entonces esta es una manera fácil de evitar una Torre Babel, o como el video describe correctamente, horas de dolor de cabeza sobre cómo integrar ambos juntos.
TL; DR:
- Actualmente, el único atractivo para mí para usar Microsoft R Open en cualquier lugar sería la reproducibilidad (punto de control), que para mis propias necesidades no es realmente suficiente para pasar el tiempo migrando (puede haber otros, pero tal vez no se mostró lo suficiente como el punto de control ellos para que yo sea consciente).
- Si forma parte de un grupo más grande de usuarios, en particular que usan Microsoft SQL Server, entonces consideraría el panorama general al decidir un cambio.
Lecturas adicionales:
Revisión: SQL Server 2017 agrega Python, procesamiento de gráficos y se ejecuta en Linux | ZDNet
PD: No es algo que me preocupe a diario, no confíe en mi palabra, pero revise las referencias 🙂 Agradecería que me dijeran mal en cualquier artículo para mejorar mi comprensión del paisaje, por supuesto.