¿R es tan popular solo por las bibliotecas que pueden manejar varias funciones estadísticas?

La popularidad de R se debe a una serie de razones, no solo a las funciones estadísticas integradas. Algunas razones son:

  1. R es un lenguaje hecho por estadísticos para estadísticos. A los estadísticos les gusta no solo construir modelos de datos, sino también verificar supuestos subyacentes, probar hipótesis sobre los datos o patrones en ellos, y así sucesivamente. R es perfecto para combinar el trabajo de análisis de datos con dicha verificación de supuestos
  2. R es ideal para visualizaciones de datos rápidas y reutilizables. Si bien no produce visualizaciones dinámicas como D3.JS, sí produce visualizaciones atractivas con calidad de publicación, e incluso el paquete de trazado base tiene mucha funcionalidad. Es imposible dejar de lado GGPlot2, el excelente paquete de trazado de R. El enrejado es otro buen paquete.
  3. R tiene una abstracción de marco de datos central, que trata los datos de maneras de muy alto nivel. Ser capaz de manejar los datos como marcos de datos facilita muchas cosas en R. R deduce de manera inteligente objetos centrados alrededor de marcos de datos y utiliza marcos de datos como resultado de muchos resultados. Al igual que las matrices de Numpy y las tramas de datos de Pandas que llegaron mucho más tarde en Python, las tramas de datos en R son abstracciones muy valiosas, y R las tuvo primero.
  4. Las funciones y bibliotecas de R para manipular marcos de datos (plyr, dplyr, etc.) son fantásticas. Son perfectos para manipular de forma intuitiva y fácil los marcos de datos y mejorar de forma iterativa el conjunto de datos que desea para el aprendizaje automático y esas tareas.
  5. R realmente tiene cosas como un servidor web integrado, y puede implementar aplicaciones R Shiny que se convierten en paneles de datos
  6. Con la adquisición de Revolution Analytics por parte de Microsoft, Revolution R ha estado brindando a la comunidad un conjunto de paquetes de aprendizaje automático escalables y gratuitos que también juegan muy bien con la competitiva pila Azure ML de Microsoft.
  7. SparkR está en constante evolución y desarrollo, a medida que más y más científicos de datos que usan R se convierten en practicantes de ciencia de datos a gran escala también. Ya es capaz de paralelizar varias funciones en R que ahora se pueden usar para construir algoritmos de aprendizaje automático escalables
  8. R es un lenguaje específico de dominio para hacer análisis de datos y ciencia de datos. Esta es quizás una extensión de lo que dije en el n. ° 1, pero vale la pena repetirlo de esta forma. Las entrañas de R contienen muchos otros lenguajes: C, C ++ y Lisp. Estos lenguajes han aportado mucha funcionalidad a R a lo largo de los años.
  9. La comunidad de R está realmente llena de usuarios extremadamente apasionados, que tratan bien a los recién llegados. Python también tiene una comunidad bastante agradable, y las comunidades son importantes cuando se trata de lenguajes de programación. La comunidad de R no es tan prohibitiva como, por ejemplo, la de Scala, y tiene personas de todo el mundo.
  10. El conjunto de bibliotecas administradas por la comunidad de R, la Red Integral de Archivos R, es un recurso fantástico, y la documentación de cada paquete está estrictamente controlada, con información de funciones, tipos de datos, funcionalidades clave y más claramente documentada. Python también tiene bibliotecas de ciencia de datos y ML bien documentadas (scikit-learn me viene a la mente como particularmente bien documentado), pero la pila de Python no parece tener documentación centralizada y organizada como R, Java o Scala (en mi experiencia).

Estoy seguro de que otros programadores de R y analistas / científicos de datos tienen diferentes experiencias para agregar, ¡pero al menos algunos corroborarán mis puntos de vista aquí! 🙂

Puedo dar mi propio razonamiento detrás del uso de R sobre cualquier otro software como Estadístico. Cuando comencé mi viaje como estadístico, me proporcionaron MS Excel, Minitab y SPSS de mi universidad de posgrado para tratar mis problemas de computación. Para un estadístico de nivel de posgrado, ese software fue lo suficientemente bueno como para abordar todos mis problemas. Pero tan pronto como salí de la universidad, entiendo que ninguno de esos programas es gratuito y personalmente trato de evitar la copia pirateada tanto como puedo. De ahí el primer gran beneficio de R, no solo es gratuito, sino que también es de código abierto .

En segundo lugar, tan pronto como me uní a mi curso de maestría, me doy cuenta de que el mundo no es tan fácil de resolver todos los problemas estadísticos con mi viejo SPSS y Minitab, necesito algo mejor. La cantidad de codificación C / C ++ es demasiado pesada para usarla regularmente. Entonces, alguien me dijo que usara Python, que hasta hoy lo uso a veces y decente para resolver muchos problemas estadísticos, especialmente problemas relacionados con el aprendizaje automático. Pero una parte muy importante de Estadísticas es la visualización de datos y, sinceramente, Python carece de una buena biblioteca. Por lo tanto, comencé a usar R solo para trazar datos. Segundo motivo: los gráficos R (con ggplot2, celosía, etc.) son significativamente mejores que cualquier software similar .

Ahora, cuando comencé a usar R, encuentro algo interesante: la ayuda de R es increíble. En comparación con la página de ayuda de un software similar, especialmente la página de ayuda sin conexión es significativamente peor. En aquel entonces, Internet no era barato ni rápido de usar todo el tiempo para cada pequeño problema. Entonces, la tercera razón: R es significativamente más fácil de aprender cuando no tienes a nadie que te ayude .

Mientras tanto, aprendí una cantidad razonable de R, luego alguien me dijo que Matlab es mejor que R. Pero encuentro un problema estricto en Matlab, aparte de ser costoso, a diferencia de R Matlab no está completamente enfocado en Estadísticas. El uso de Matlab es mucho mayor, pero para fines estadísticos, las bibliotecas específicas son raras en Matlab, de hecho en cualquier otro software. Aquí viene una razón muy grande detrás del éxito de R como mencionaste. Entonces, la cuarta razón del éxito de R es, de hecho, su enorme biblioteca desarrollada por estadísticos .

More Interesting

Cómo usar el pronóstico de series de tiempo para predecir el tiempo que tomaría realizar alguna tarea

¿Dónde puedo encontrar un código de Python para preprocesar el conjunto de datos?

¿Siri es una forma de aprendizaje automático?

¿Qué es una función de costo?

¿Cuáles son algunos algoritmos de aprendizaje automático que puedo aprender sin cálculo?

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

¿Es esencial un Msc / PHD en Machine Learning para comenzar una carrera o hacer investigación? ¿Algún consejo?

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

¿Tenemos que aprender matemáticas detrás de cada algoritmo de aprendizaje automático?

¿Qué es la regresión en el aprendizaje automático?

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

¿Cuál es la relación entre K-means y PCA?

¿Se utiliza Machine Learning fuera de las startups y otras "nuevas" empresas?

¿Cuál es la relación entre el aprendizaje automático y la minería de datos?