¿Se usa R ampliamente hoy en día en la ciencia de datos?

“Extensivamente” es un término relativo, así que permítanme discutir esto en comparación con otros idiomas.

Yo diría que R fue probablemente EL lenguaje para hacer estadísticas o trabajos de “ciencia de datos” hace unos 5-10 años. Hoy, a medida que la pila de ciencia de Python se pone al día y sigue creciendo, es casi tan utilizada como Python para tareas similares. Sin embargo, puedo ver un cambio más hacia Python en el futuro porque parece haber más desarrollo en este momento hacia la escalabilidad y la eficiencia computacional. Por ejemplo

  • Blaze para análisis fuera de núcleo de grandes conjuntos de datos
  • Dask para computación paralela en máquinas multinúcleo o en clústeres distribuidos
  • Theano y Tensorflow para la optimización y evaluación de expresiones matemáticas que involucran matrices multidimensionales que utilizan GPU

y muchos muchos mas. Aunque R está bien para análisis de “pequeña escala”, el rendimiento puede ser (convertirse) en una gran debilidad de R para aplicaciones del mundo real.

Sin embargo, tenga en cuenta que Scala también está en aumento en este momento, tome Spark por ejemplo.

Finalmente, creo que todo depende de la tarea y el problema que quieras resolver. Para análisis y proyectos “más pequeños”, la pila de ciencia y R por defecto de Python funcionan bien. Para la computación distribuida a gran escala, normalmente usaría Spark (escrito en Scala). Para el aprendizaje profundo, utiliza Theano o Tensorflow (a través de Python) o Torch (escrito en Lua).

(Si todo lo que tienes es un martillo, todo parece un clavo :).)

Bueno eso depende.

Aquí hay una publicación de Revolution Analytics (ahora parte de Microsoft): Empresas que usan R

R es muchas cosas. Es la versión de código abierto. Es la versión de Microsoft. Es Renjin.org | El intérprete basado en JVM para el lenguaje R para computación estadística

Y hay otros.

Ahora que existe el Consorcio R, y que Microsoft está detrás de R … bueno … es de esperar que la versión de código abierto mejore con respecto a la anterior. R, R normal, es un horrible recuerdo, por ahora. Quizás eso mejore. La revolución mejoró eso, sin duda, y veremos cómo funciona dentro de la EM. Microsoft está dando su versión de R a los desarrolladores de forma gratuita (por ahora), pero solo están disponibles las compilaciones de RedHat y SUSE Linux, así como la de Windows. Probablemente podría hacer que funcione en otra distribución, pero para ser honesto, la R regular es suficiente para lo que hago. Y hacen hincapié en que la versión de Windows es la más poderosa, la más completa.

El problema con eso es para mí: uso Windows para el entretenimiento. Todos los proyectos de desarrollo y datos están en Linux. (En cuanto a RedHat y SUSE, bueno, Linux para mí significa gratis).

R es genial. No me malinterpretes. Amo a R. Lo he amado desde que lo conocí. Pero hay tantas diferencias de sintaxis en su gran cantidad de paquetes. Hadley Wickham está haciendo un trabajo tremendo, al igual que otros, pero Hadley, bueno, Hadley. Sin embargo, tome ggplot2. Completamente diferente a la base o gráficos de celosía. Lo cual es, en algunos sentidos, algo bueno. Sin embargo, no hay principios de diseño reales comunes a cada paquete.

Hay otro problema con R, uno que no he visto discutido mucho, aunque no he buscado últimamente. No es un idioma Es un entorno equipado con un idioma. El entorno R con el lenguaje R. Lo último no existe sin lo primero.

Gracias por el A2A.

R se usa bastante para la ciencia de datos. Si es extensivamente o no depende de lo que quieres decir con extensivamente.

En cuanto a la industria, diría que sí, aunque algunas empresas e industrias tienen relaciones a largo plazo con herramientas comerciales como SAS y SPSS.

No creo que el uso de R sea extenso si lo observamos según el tipo de proyecto. Lo que quiero decir es que hay muchas personas que lo usan para tipos de proyectos específicos, como el análisis de datos y la creación de prototipos de aprendizaje automático. Por lo que leo y escucho, R no es bien aceptado en proyectos de producción de aprendizaje automático en tiempo real donde Python y Java parecen dominar.

Utilizando mi propia industria como ejemplo, he discutido las herramientas con varios científicos, analistas e ingenieros y entiendo lo siguiente:

  • La mayoría de los equipos de análisis / ciencia de datos usan varios idiomas, sin embargo, tienen una preferencia, generalmente entre R y Python
  • R parece ser más utilizado en Europa
  • Python parece ser más utilizado en los EE. UU.

Usando nuestro trabajo como ejemplo, usamos R para:

  • Análisis de datos / minería (hecho en máquinas locales)
  • Aprendizaje automático (en AWS)
  • Productos de datos interactivos (con Shiny)

Espero que esto arroje algo de luz.

Sí lo es. Los principales cursos de ciencia de datos en coursera Página en coursera.com se imparten en programación R

También está creciendo rápidamente y tomando Python por lo que concierne al uso de análisis de datos.
Aquí hay un enlace sobre eso: en ciencia de datos, el lenguaje R se está tragando a Python
y aquí R vs Python para Data Science: The Winner es …
R es fácil de aprender, así que creo que esta debe ser una de las razones.

Depende de lo que entienda por “ciencia de datos”. Por ejemplo, soy bioestadista e investigador de datos, sin embargo, no juego con big data y machine learning en absoluto. Por lo tanto, no soy un científico de datos típico, sino un estadístico clásico. En la industria en la que estoy involucrado, Investigación Clínica y Medicina Basada en la Evidencia, R se usa ampliamente, compitiendo fuertemente con SAS.

R tiene sus propios beneficios distintos cuando se trata de ciencia de datos. Los estadísticos lo adoran principalmente por sus características de visualización de datos. Los usuarios de R tienen una gran comunidad que brinda soporte entre pares a través de la documentación aportada por los usuarios. También tiene una lista de correo sustancial. Los usuarios pueden consultar una gran colección de paquetes serrados de R. Es bastante legible y fácil de depurar. Como programador, le encantaría tener un código que pueda optimizarse y hacerse perfecto sin problemas. Si realmente desea explorar todo el potencial de R y desea aprender su aplicación óptima en el dominio de la ciencia de datos, le recomendaría que tome un curso de capacitación, como el realizado por ScholarsPro. Esta ciencia de datos con capacitación en R de este instituto es uno de los mejores cursos que encontré para aprender el idioma y obtener una idea del mismo.

Puede ser que las personas que trabajan en la industria puedan arrojar algo de luz sobre esto. En mi doctorado, usé principalmente MATLAB, Java. Pero también usé R esporádicamente para implementar rápidamente otros proyectos paralelos, trazar y cosas así. R es fácil de aprender y es similar a MATLAB (en cierto sentido). También he visto anuncios de trabajo para Data Science que piden conocimiento en R, por lo que estoy seguro de que debe haber un mercado para eso.

More Interesting

¿Cómo se ve el algoritmo del juego Plague?

¿Cuál es la solución a la siguiente relación de recurrencia: [matemáticas] T (n) = 3T (n-1) - 7T (n-2) + 9T (n-3) [/ matemáticas], con las siguientes condiciones iniciales: [ matemática] T (0) = 1 [/ matemática], [matemática] T (1) = 6 [/ matemática], [matemática] T (2) = 7 [/ matemática]. ¿Qué es una expresión para [math] T (n) [/ math] de modo que no haya términos [math] T (i (\ frac {n} {j}) ^ {k}) [/ math] a la derecha ¿lado?

¿Qué estrategias o algoritmos se utilizan para agrupar rutas de pasajeros en función de la ubicación y la hora de salida?

¿Es posible encontrar la distancia del vértice más alejada del vértice inicial mediante la solución iterativa de DFS para un árbol (NO un gráfico genérico)?

¿Cuál es el algoritmo para imprimir el alfabeto 'A' como patrón?

¿Cómo escribo un código C completo, incluidos todos los bucles y las condiciones de la línea de límite para la eliminación del nodo en el árbol de búsqueda binario?

¿Qué algoritmos se pueden usar para encontrar rutas más seguras en una red de modo que sea casi imposible de rastrear y ningún pirata informático pueda utilizarlo completamente?

¿Cómo se implementa el algoritmo HITS?

¿Cuál es un buen algoritmo de coincidencia para palabras mal escritas?

¿Cuál es el algoritmo utilizado para llenar el tablero en el juego Bejeweled Blitz?

¿Cómo se programan y hacen los bots del juego (creados por jugadores) para conectarse con el juego y controlarlo?

¿Resolver problemas en Topcoder / Codeforces es una buena manera de aprender Java Collections Framework?

¿Qué estructura de datos es mejor para implementar una guía telefónica: Trie o Hash? ¿Por qué?

Dada una lista de cadenas, ¿cómo puedo determinar si existe un orden de caracteres para el cual las cadenas están ordenadas en orden lexicográfico?

¿Es posible que el modelo de espacio vectorial que utilizamos para entrenar algoritmos de aprendizaje automático sea inadecuado para la representación del aprendizaje humano?