¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?

La respuesta es, depende.

La parte más compleja está relacionada con la empresa. Algunas compañías están centradas en el lenguaje, otras están más centradas en la tarea. Los idiomas centrados a menudo usan un pequeño conjunto de idiomas en los equipos de datos, lo que hace que los equipos sean más productivos, excepto cuando sus idiomas preferidos no son los mejores para la tarea. Las empresas centradas en tareas enfrentan problemas más grandes con la integración, pero tienen la ventaja de usar la que sea la mejor solución. Por lo tanto, hay enormes diferencias entre las empresas.

La parte menos compleja está relacionada con la función. En cuanto a ingeniería, Java, Scala y Python toman una gran parte de las preferencias. Python y R toman la creación de prototipos, análisis y construcción de modelos. SAS, Matlab y otros aparecen en ciertas industrias junto con Python y R. En algún lugar en el medio, está el ML e I + D puro que puede ir de C a Python a R. Y luego están los contendientes como Julia.

Entonces … la función en la que se definirá definirá en gran medida qué idiomas es más probable que use, pero eso no significa que esos sean los más comunes e importantes en general, solo en el contexto de una determinada empresa / industria.

Espero que esto ayude.

Creo que lo más importante para aprender en ciencia de datos es cómo aprender varias cosas muy rápidamente. Quizás más que la mayoría de las disciplinas.

Buscar el idioma para gobernarlos a todos no es ideal.

Dicho esto, puedes llegar bastante lejos solo con Python porque muchas de las herramientas de ciencia de datos tienen envoltorios de Python. Cosas como los marcos de datos de pandas abren muchas posibilidades. R y Matlib también tienen bibliotecas Python en su mayoría sólidas.

En algún momento, el lenguaje es menos importante que pensar como un científico de datos. Una vez que comiences a hacerlo, las herramientas se volverán irrelevantes.

Para comenzar como Data Scientist, uno debe conocer Python, Scala y R. No hay idiomas “más ricos” cuando se trata de Data Science. Varios idiomas son conocidos por sus cualidades específicas.

Para realizar cargas de trabajo de producción en conjuntos de datos que deben ejecutarse en varias máquinas: Scala / Spark.

Para bases de código que son pequeñas y para un buen análisis estadístico y para Deep Learning– Python.

Para un análisis exploratorio impresionante: R.

Para entornos basados ​​en alto rendimiento y resultados más rápidos: C ++

Probablemente Python, aunque R y Matlab también son bastante populares. Julia es un lenguaje prometedor y prometedor.

La programación R y Python es buena para experimentar y Julia para big data.