¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?

Sí, muchas grandes empresas usan R, incluidas LI, FB, Google, Microsoft, bancos y compañías de investigación, incluidas las del CERN y de investigación clínica.

Sin embargo, no creo que usen a escala masiva la versión estándar de R.

Existen versiones avanzadas de R lanzadas por Oracle (Enterprise R) [1] [2] y Microsoft (integrado también con MS SQL Server) [3] [4]. Creo que estos dos son los principales candidatos para las plataformas de Big Data suponiendo el uso de R. Por ejemplo, Oracle R es (como se indica en su página web, no lo probó) aproximadamente 30 veces más rápido y MS – 50x que la versión estándar.

Algunas estadísticas (no verificadas, solo citadas) de la página de Microsoft:

  • 1 millón de predicciones / segundo con análisis en la base de datos
  • Rendimiento 50 veces más rápido que el código abierto R
  • 100% de soporte para más de 9,000 paquetes CRAN R
  • Capacidad de aprendizaje automático 1000 veces mayor que la que se encuentra en código abierto R

Notas al pie

[1] R Enterprise

[2] Tecnologías Oracle R

[3] R Server Overview-R Análisis de datos

[4] Microsoft R Open: la distribución R mejorada

Sé que la programación R se usa entre los científicos de datos en diferentes grandes empresas como Vodafone.

También en Google y Facebook lo están utilizando cada vez más.

Por ejemplo, si echa un vistazo a las últimas tres conferencias useR (es decir, la conferencia internacional de programación R) a continuación:

¡usuario! 2016 Stanford, California

¡usuario! 2015 Aalborg

¡usuario! 2014 Los Angeles

verá que entre los patrocinadores siempre hay Google, Facebook, Sage, etc.

Sin embargo, lo que te llama la atención es el hecho de que Google, por ejemplo, pasó de ser un patrocinador de plata en 2014 a uno de oro y platino en 2015 y 2016, respectivamente.

Otros patrocinadores notables son Microsoft, Oracle, AT&T. No veo a Linkedin entre esos patrocinadores, pero como ahora es parte de Microsoft Corporation, podría estar usando R también.

Al principio, R era popular principalmente entre los investigadores, pero parece que R está encontrando una creciente adopción en las empresas.

Puede encontrar algunas lecturas interesantes que respaldan esta afirmación aquí: Era de la información: graduados que impulsan la adopción de R en la industria y aquí: Poner la R en análisis

mientras que estos otros artículos tratan sobre aumentar las posibilidades de tu carrera al aprender programación R: ¿Por qué ahora es el momento de aprender R y

R ¿Estás listo para R?

Si está buscando una colección de recursos en línea sobre R, como libros, artículos, guías y tutoriales, consulte esta publicación. Recopila más de 500 enlaces Plus en programación R, estadísticas y visualización. por Alket Cecaj sobre Algoritmos y DataFusion

Algo de esto es de lo que he escuchado de personas que trabajan en empresas tecnológicas. Podrían estar usando R para análisis rápidos a pequeña escala. Aunque cuando se trata de análisis a gran escala, R es realmente lento. La lectura y escritura en sí es muy lenta en comparación con Matlab y Python. Una vez intenté leer en un archivo (matriz de expresión génica) usando MATLAB, R y python. R fue el más lento, seguido de MATLAB y Python. Python / Perl es el más rápido cuando se trata de leer y escribir archivos, preprocesamiento de datos, etc. MATLAB es rápido cuando se trata de cálculos matriciales y álgebra lineal. Y R es el más lento entre todos. No estoy seguro de si estas compañías realmente preferirían usar R a gran escala (a menos que tengan funciones de envoltura escritas en C o C ++, aunque entonces ¿por qué no usar MATLAB o python?).
Entonces, análisis exploratorio, ¡R es! Pero al escalarlo a gran escala, puede no ser una gran idea. Algunas nuevas herramientas informáticas distribuidas, como Spark, podrían ser lo siguiente en incluir en su currículum.

Me gustaría agregar, R tiene algunas herramientas de visualización bastante impresionantes, ¡lo que me hace volver siempre cuando hago tramas! Aunque en la actualidad, herramientas como D3 también funcionan muy bien para las visualizaciones.

Creo que R tiene una naturaleza evolutiva básicamente por el hecho de que es gratis y tiene muchos paquetes que son útiles en la minería de datos. En términos de aprendizaje automático y manipulación de datos, R sirve para ser una de las mejores organizaciones. Uno de los inconvenientes es que la resolución de la asignación compleja de R ayuda menos debido a la falta de estimadores econométricos que tiene STATA.

Entiendo que es más una herramienta (como MATLAB o LabView) para realizar un análisis rápido de datos. Creo que hay otras herramientas para el despliegue de técnicas estadísticas a gran escala (es decir, funciones de escritura para Hadoop, HBase, etc.).

La versión empresarial de Revolution de R afirma que no están limitados por la memoria.

Ver:

Una guía detallada sobre el uso de memoria en R

No puedo hablar con autoridad sobre ninguno de los dos, pero estoy bastante seguro de que algunas personas usan R en Facebook y LinkedIn, ya sea que se use específicamente para la minería de datos a gran escala, no estoy muy seguro … pero existe el famoso imagen que mapea a amigos de Facebook a nivel mundial que fue producida usando R, por lo que, como mínimo, Facebook la usa para visualizaciones …

(Estas son opiniones cuando tuve conversaciones con amigos y colegas).
Si y no.
Sí, R se usa al hacer minería de datos.
Sin embargo, no se utiliza durante la implementación.

More Interesting

Cómo construir un sistema de recomendación de itinerario basado en las preferencias del usuario

¿Cuáles son las mejores prácticas cuando se utiliza el análisis predictivo para la industria? ¿Hay algunos marcos o pautas?

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Cuál es la diferencia entre los datos de entrenamiento y los datos de prueba?

¿Qué quieres decir con aprendizaje profundo?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

Procesamiento del lenguaje natural: ¿Cuáles son algunos métodos efectivos para detectar / calificar cadenas que pueden contener palabras profanas / ofensivas?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

¿Hay alguna diferencia entre los codificadores automáticos y el codificador-decodificador en el aprendizaje profundo?

¿Cuáles son los mejores métodos de detección de anomalías para imágenes?

¿Cuál es el alcance del aprendizaje automático en la verificación?

¿Puede una red neuronal convolucional tener pesos negativos?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?