Algunas diferencias realmente importantes a tener en cuenta al elegir R o Python sobre el otro:
- El aprendizaje automático tiene 2 fases. Fase de construcción de modelos y predicción. Por lo general, la construcción del modelo se realiza como un proceso por lotes y las predicciones se realizan en tiempo real . El proceso de construcción del modelo es un proceso de cómputo intensivo, mientras que la predicción ocurre en un santiamén. Por lo tanto, el rendimiento de un algoritmo en Python o R realmente no afecta el tiempo de respuesta del usuario. Python 1, R 1.
- Producción: La verdadera diferencia entre Python y R radica en estar listo para la producción. Python, como tal, es un lenguaje de programación completo y muchas organizaciones lo usan en sus sistemas de producción. R es un software de programación estadística favorecido por muchos académicos y debido al aumento en la ciencia de datos y la disponibilidad de bibliotecas y al ser de código abierto, la industria ha comenzado a usar R. Muchas de estas organizaciones tienen sus sistemas de producción en Java, C ++, C #, Python, etc. Entonces, idealmente, les gustaría tener el sistema de predicción en el mismo idioma para reducir los problemas de latencia y mantenimiento. Python 2, R 1.
- Bibliotecas: Ambos idiomas tienen bibliotecas enormes y confiables. R tiene más de 5000 bibliotecas que atienden a muchos dominios, mientras que Python tiene algunos paquetes increíbles como Pandas, NumPy, SciPy, Scikit Learn, Matplotlib . Python 3, R 2.
- Desarrollo: Tanto el lenguaje son idiomas interpretados. Muchos dicen que Python tiene una buena curva de aprendizaje, es casi como leer inglés (para ponerlo en una nota más clara) pero R tiene la reputación de tener una curva de aprendizaje más pronunciada. Además, ambos tienen buenos IDEs (Spyder, etc. para Python y RStudio para R). Python 4, R 2.
- Velocidad: el software R inicialmente tuvo problemas con cálculos grandes (por ejemplo, como multiplicaciones de matriz nxn). Pero, este problema se aborda con la introducción de R por parte de Revolution Analytics. Han reescrito operaciones intensivas de cálculo en C, que es increíblemente rápido. Python siendo un lenguaje de alto nivel es relativamente lento. Python 4, R 3.
- Visualizaciones: en ciencia de datos, con frecuencia tendemos a trazar datos para mostrar patrones a los usuarios. Por lo tanto, las visualizaciones se convierten en un criterio importante para elegir un software y R mata completamente a Python a este respecto. Gracias a Hadley Wickham por un increíble paquete ggplot2. R gana sin dudas. Python 4, R 4.
- Manejo de Big Data: una de las limitaciones de R es que almacena los datos en la memoria del sistema (RAM). Por lo tanto, la capacidad de RAM se convierte en una restricción cuando maneja Big Data. Python funciona bien, pero diría que, ya que tanto R como Python tienen conectores HDFS, aprovechar la infraestructura de Hadoop proporcionaría una mejora sustancial del rendimiento. Entonces, Python 5, R 5.
Entonces, ambos idiomas son igualmente buenos. Por lo tanto, dependiendo de su dominio y el lugar donde trabaje, debe elegir inteligentemente el idioma correcto. El mundo de la tecnología generalmente prefiere un solo idioma. Los usuarios de negocios (análisis de marketing, análisis minorista) generalmente utilizan el lenguaje de programación estadística R, ya que con frecuencia realizan prototipos rápidos y crean visualizaciones, lo que es más rápido en R.
- ¿Cómo debo planificar cuando aspiro a ser un científico de datos?
- ¿Cuál es el mejor campo para aprender y ganar, base de SAP o ciencia de datos?
- Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?
- ¿Cuáles son los casos de uso de SQL en estadísticas y análisis de datos?
- ¿Addepar tiene roles de tipo científico de datos?