Como empresa de tecnología, ¿Amazon usa más Python que R para proyectos de Data Science?

Amazon ofrece a sus desarrolladores la libertad de elegir cualquier idioma, cualquier base de datos, siempre que sea seguro y compatible con el dominio público (autorizado por un equipo de seguridad interno).

Entonces, C ++, Java se usa principalmente, Python, R y ruby ​​se usan en el lado de los scripts. Rails, Apache tomcat también se usan y se admiten. Las bibliotecas de JavaScript como JQuery, etc., obviamente están permitidas. Bases de datos: desde DynamoDB hasta MySql y Oracle.

Java gana la pelea de lenguaje más utilizada , sin duda. Idioma número uno, utilizado de manera ubicua en tantas organizaciones y equipos diferentes.

La prueba Hello World simplemente muestra cuánto código está involucrado en solo mostrar las palabras “Hello World” en el dispositivo de salida estándar.

Java Hello World:

clase pública HelloWorld {
public static void main (String [] args) {
System.out.println (“Hola, mundo”);
}
}

Python Hello World:

imprimir (“Hola mundo”)

R Hola Mundo:

Cree un archivo test.R y escriba el siguiente código.

gato (‘¡Hola mundo!’)
correr

Obviamente, los lenguajes de “scripting” obtienen una alta puntuación : Python es el favorito, utilizado para una amplia gama de propósitos diferentes, desde scripting básico hasta ML, seguido de cerca por R.

Los algoritmos en Python están diseñados para ser fáciles de leer y escribir. Los bloques de código Python están separados por hendiduras. Dentro de cada bloque, descubrirá una sintaxis que no estaría fuera de lugar en un manual técnico.

R es un poco más popular que Python en ciencia de datos, con el 43 por ciento de los científicos de datos que lo usan en su pila de herramientas en comparación con el 40 por ciento que usa Python.

Python es versátil, simple, más fácil de aprender y poderoso debido a su utilidad en una variedad de contextos, algunos de los cuales no tienen nada que ver con la ciencia de datos. R es un entorno especializado que busca optimizar el análisis de datos , pero que es más difícil de aprender.

Bueno, no soy un experto de Amazon, así que tome esto como una estimación aproximada, pero también hice que mi equipo investigara en mi último trabajo para investigar los méritos de varias opciones para productivar nuestro ML (Realmente amo a R pero también respeto a Python, tampoco es- o realmente IMO y usamos ambos).

Descubrimos que nuestros algoritmos R eran más fáciles de ejecutar en Azure ML en comparación con AWS. No es realmente sorprendente cuando consideras la adquisición de Revolution R por parte de Microsoft (ahora comercializado como Microsoft R Open, que en realidad es realmente genial).

Sin embargo, no estoy seguro de que Amazon tenga preferencias para R o Python. Si revisa su solución de aprendizaje profundo de código abierto (amznlabs / amazon-dsstne) verá que está escrita en C / C ++ y depende en gran medida de la GPU C / C ++. Pero puede interactuar prácticamente cualquier lenguaje de programación con estas cosas, simplemente trátelas como dispositivos.

Pero como dije, no soy una persona con información privilegiada, así que tal vez tengan grandes equipos de Python DS. Mi punto de vista es hacer una amplia variedad de actividad de DS que necesite R, Python, Java, C / C ++ y tal vez incluir algunas bibliotecas pre-horneadas DL como Tensorflow y DSSTNE si está en espacios problemáticos orientados a Neural-Net . Entonces, ¿qué pasa con Scala para ML a gran escala? Hay una razón por la cual Apache Spark MLIB se escribe utilizando programación funcional.

En cualquier caso, como se ha dicho muchas veces antes, si desea ingresar al DS del mundo real, lo primero que necesita es una comprensión estadística decente. El lenguaje de programación / biblioteca / juguetes brillantes son solo herramientas para el trabajo. Y necesitarás un juego de herramientas completo, no solo un martillo 🙂

More Interesting

Qué tan bien se traduce la economía de pregrado (y algunas estadísticas) a trabajar en ciencia de datos. ¿Qué posición (es) debo considerar?

¿Cuál es la diferencia entre una maestría en MFE y una maestría en ciencias de datos, especialmente su futura carrera?

¿Qué me preparará mejor para convertirme en científico de datos: un título universitario relevante o autodidacta a través de Coursera, Kaggle y proyectos paralelos?

¿Cuál de los siguientes dos cursos ayudaría a un principiante absoluto de ML a comenzar rápidamente con las competencias de Kaggle y por qué? Aprendiendo de los datos - Curso en línea Coursera ML Course

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?

Cómo desarrollar la intuición de datos

¿Cómo aprendo el procesamiento del lenguaje natural?

¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?

Al igual que Mathematica, ¿existen herramientas de código abierto capaces de integrar el conocimiento con nuestros datos?

¿Cómo aborda un científico de datos experto un problema de aprendizaje automático? ¿Puedes explicar paso a paso?

¿Puedo usar RStudio para la minería de datos donde necesito tomar un conjunto de datos de detección de intrusos? ¿Alguna sugerencia?

¿Qué se entiende por aprendizaje automático y el futuro de la ciencia de datos en la India?

Soy un ingeniero de datos al año fuera de la escuela que gana 65k, ¿qué debo esperar para ganar sueldo después de 5 años?

¿Cuáles son los mejores recursos para aprender la visualización de datos?

¿Qué se entiende por clasificación de datos?