¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?

Sí, muchas grandes empresas usan R, incluidas LI, FB, Google, Microsoft, bancos y compañías de investigación, incluidas las del CERN y de investigación clínica.

Sin embargo, no creo que usen a escala masiva la versión estándar de R.

Existen versiones avanzadas de R lanzadas por Oracle (Enterprise R) [1] [2] y Microsoft (integrado también con MS SQL Server) [3] [4]. Creo que estos dos son los principales candidatos para las plataformas de Big Data suponiendo el uso de R. Por ejemplo, Oracle R es (como se indica en su página web, no lo probó) aproximadamente 30 veces más rápido y MS – 50x que la versión estándar.

Algunas estadísticas (no verificadas, solo citadas) de la página de Microsoft:

1 millón de predicciones / segundo con análisis en la base de datos
Rendimiento 50 veces más rápido que el código abierto R
100% de soporte para más de 9,000 paquetes CRAN R
Capacidad de aprendizaje automático 1000 veces mayor que la que se encuentra en código abierto R

Notas al pie

[1] R Enterprise

[2] Tecnologías Oracle R

[3] R Server Overview-R Análisis de datos

[4] Microsoft R Open: la distribución R mejorada

¿Cuáles son los problemas de investigación en la detección de objetos?

Cómo implementar la detección y clasificación de frutas de manzana usando MATLAB en una aplicación antroidea

Cómo asegurarse de no analizar algo que termina sin sentido

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Cuál es el mejor nombre para una aplicación de noticias: PaperRound o Crucible?

¿Está nuestro cerebro conectado para reconocer y admirar la simetría o otros animales también muestran rasgos similares?

Sé que la programación R se usa entre los científicos de datos en diferentes grandes empresas como Vodafone.

También en Google y Facebook lo están utilizando cada vez más.

Por ejemplo, si echa un vistazo a las últimas tres conferencias useR (es decir, la conferencia internacional de programación R) a continuación:

¡usuario! 2016 Stanford, California

¡usuario! 2015 Aalborg

¡usuario! 2014 Los Angeles

verá que entre los patrocinadores siempre hay Google, Facebook, Sage, etc.

Sin embargo, lo que te llama la atención es el hecho de que Google, por ejemplo, pasó de ser un patrocinador de plata en 2014 a uno de oro y platino en 2015 y 2016, respectivamente.

Otros patrocinadores notables son Microsoft, Oracle, AT&T. No veo a Linkedin entre esos patrocinadores, pero como ahora es parte de Microsoft Corporation, podría estar usando R también.

Al principio, R era popular principalmente entre los investigadores, pero parece que R está encontrando una creciente adopción en las empresas.

Puede encontrar algunas lecturas interesantes que respaldan esta afirmación aquí: Era de la información: graduados que impulsan la adopción de R en la industria y aquí: Poner la R en análisis

mientras que estos otros artículos tratan sobre aumentar las posibilidades de tu carrera al aprender programación R: ¿Por qué ahora es el momento de aprender R y

R ¿Estás listo para R?

Si está buscando una colección de recursos en línea sobre R, como libros, artículos, guías y tutoriales, consulte esta publicación. Recopila más de 500 enlaces Plus en programación R, estadísticas y visualización. por Alket Cecaj sobre Algoritmos y DataFusion

Hideyoshi Maeda

Algo de esto es de lo que he escuchado de personas que trabajan en empresas tecnológicas. Podrían estar usando R para análisis rápidos a pequeña escala. Aunque cuando se trata de análisis a gran escala, R es realmente lento. La lectura y escritura en sí es muy lenta en comparación con Matlab y Python. Una vez intenté leer en un archivo (matriz de expresión génica) usando MATLAB, R y python. R fue el más lento, seguido de MATLAB y Python. Python / Perl es el más rápido cuando se trata de leer y escribir archivos, preprocesamiento de datos, etc. MATLAB es rápido cuando se trata de cálculos matriciales y álgebra lineal. Y R es el más lento entre todos. No estoy seguro de si estas compañías realmente preferirían usar R a gran escala (a menos que tengan funciones de envoltura escritas en C o C ++, aunque entonces ¿por qué no usar MATLAB o python?).
Entonces, análisis exploratorio, ¡R es! Pero al escalarlo a gran escala, puede no ser una gran idea. Algunas nuevas herramientas informáticas distribuidas, como Spark, podrían ser lo siguiente en incluir en su currículum.

Me gustaría agregar, R tiene algunas herramientas de visualización bastante impresionantes, ¡lo que me hace volver siempre cuando hago tramas! Aunque en la actualidad, herramientas como D3 también funcionan muy bien para las visualizaciones.

Heather Mayer

Creo que R tiene una naturaleza evolutiva básicamente por el hecho de que es gratis y tiene muchos paquetes que son útiles en la minería de datos. En términos de aprendizaje automático y manipulación de datos, R sirve para ser una de las mejores organizaciones. Uno de los inconvenientes es que la resolución de la asignación compleja de R ayuda menos debido a la falta de estimadores econométricos que tiene STATA.

Alket Cecaj

Entiendo que es más una herramienta (como MATLAB o LabView) para realizar un análisis rápido de datos. Creo que hay otras herramientas para el despliegue de técnicas estadísticas a gran escala (es decir, funciones de escritura para Hadoop, HBase, etc.).

Heather Mayer

La versión empresarial de Revolution de R afirma que no están limitados por la memoria.

Ver:

Una guía detallada sobre el uso de memoria en R

Heather Mayer

No puedo hablar con autoridad sobre ninguno de los dos, pero estoy bastante seguro de que algunas personas usan R en Facebook y LinkedIn, ya sea que se use específicamente para la minería de datos a gran escala, no estoy muy seguro … pero existe el famoso imagen que mapea a amigos de Facebook a nivel mundial que fue producida usando R, por lo que, como mínimo, Facebook la usa para visualizaciones …

Prateek Tandon

(Estas son opiniones cuando tuve conversaciones con amigos y colegas).
Si y no.
Sí, R se usa al hacer minería de datos.
Sin embargo, no se utiliza durante la implementación.

Hideyoshi Maeda

More Interesting

Cómo construir un sistema de recomendación de itinerario basado en las preferencias del usuario

¿Cuáles son las mejores prácticas cuando se utiliza el análisis predictivo para la industria? ¿Hay algunos marcos o pautas?

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Cuál es la diferencia entre los datos de entrenamiento y los datos de prueba?

¿Qué quieres decir con aprendizaje profundo?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿Se puede usar una máquina de Boltzmann profunda para la clasificación de imágenes en una base de datos que tiene solo mil imágenes y tiene características de imagen de valor real como unidades de entrada (en lugar de unidades de píxeles binarios)?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

Procesamiento del lenguaje natural: ¿Cuáles son algunos métodos efectivos para detectar / calificar cadenas que pueden contener palabras profanas / ofensivas?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?