Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.

R y Python son de hecho las mejores opciones para la ciencia de datos. Sin embargo, una palabra de precaución. Elija uno u otro según su situación y no según la opinión de los demás. La gente tiende a tener fuertes opiniones sobre los lenguajes de programación. Es posible que esté recibiendo un consejo bien intencionado que puede no ser el mejor en su situación particular.

Aquí hay un resumen rápido de por qué elegiría uno u otro.

¿Por qué R?
R se ha utilizado para la informática estadística durante más de dos décadas. Puede comenzar a escribir código útil en poco tiempo. Ha sido utilizado ampliamente por los científicos de datos y tiene una cantidad increíble de paquetes disponibles para muchas tareas relacionadas con la ciencia de datos. Casi siempre he podido encontrar un paquete en R para realizar la tarea muy rápidamente. Tengo buenas habilidades en python y he escrito código de producción en python. Incluso con eso, encuentro que R es un poco mejor para probar ideas rápidamente, probar diferentes formas de visualizar datos y realizar rápidamente trabajos de creación de prototipos.

Por que Python
Python tiene muchas ventajas sobre R en ciertas situaciones. Python es un lenguaje de programación de propósito general. Python tiene bibliotecas como pandas, numpy, scipy y scikit-learn, por nombrar algunas que pueden ser útiles para realizar trabajos relacionados con la ciencia de datos.

Si llega a señalar dónde tiene que mostrar su trabajo de ciencia de datos, Python una vez sería un claro ganador. Python combinado con django es un marco de aplicación web increíble, que puede ayudarlo a crear un servicio / sitio web con su ciencia de datos y programación web realizada en el mismo idioma.

Es posible que escuche algunos argumentos de velocidad y eficiencia de ambos campos: ignórelos por ahora. Si llega a un punto en el que está haciendo algo lo suficientemente sustancial como para que la velocidad de su código sea importante para usted, probablemente descubrirá las cosas por su cuenta. Así que no te preocupes por eso en este momento.

Conclusión
Teniendo en cuenta que eres un principiante tanto en ciencia de datos como en programación, y que tienes experiencia en economía y estadística, me inclinaría por R. Además de ser muy poderoso, Python es sin duda uno de los lenguajes de programación más amigables para principiantes: pero sigue siendo un lenguaje de programación. Su curva de aprendizaje puede ser un poco más pronunciada en Python que en R.

Definitivamente, debe aprender Python, una vez que se sienta cómodo con R, y haya comprendido los conceptos generales de la ciencia de datos, lo que llevará algún tiempo. Puedes leer ¿Cuáles son las habilidades clave de un científico de datos? para tener una idea del conjunto de habilidades necesitarás convertirte en un científico de datos.

Comience con R, haga la transición a Python gradualmente y luego comience a usar ambos según sea necesario. Ambos son excelentes para la ciencia de datos, pero uno es mejor que otro en ciertas situaciones.

En mi opinión, en este orden, suponiendo que no se detendrá con un solo idioma:

Python: bastante fácil, extremadamente útil, increíblemente poderoso. Hay muchas introducciones a la informática hechas con Python.

R: Divulgación, R es mi idioma # 1 actual. Puede quedarse con Python y evolucionar con numpy y scipy (bibliotecas de python) para el mismo conjunto de habilidades que adquirirá con R. Dado que no tiene un fondo de codificación que probablemente alivie la curva de aprendizaje. Sin embargo, mantendría a R en la lista y lo recogería en algún momento.

SQL: aprender SQL es obvio. Es relativamente simple y abre muchas posibilidades. Por un lado, podrá tomar datos directamente de muchas bases de datos. Por otro lado, hay muchas herramientas útiles que hacen cosas increíbles cuando se conectan directamente a bases de datos, como Tableau.

Espero que esto ayude y buena suerte!

Definitivamente Python. Python es un lenguaje de secuencias de comandos, mientras que C # es para una programación más técnica. Como científico de datos, es posible que ni siquiera necesite aprender algo como C # o C ++. Sin embargo, es posible que desee familiarizarse con R y MySQL, que son esenciales para trabajar con bases de datos y análisis estadísticos.

Realmente deberías leer ¿Cómo me convierto en un científico de datos?

Es la mejor referencia sobre cómo ingresar al campo, especialmente poner las cosas en contexto, que en su caso lo enmarca fuera del aprendizaje de lenguajes de programación, y más hacia qué conceptos debe aprender.

Si solo puede elegir entre los que enumeró, Python es la elección obvia. Ya hay demasiada inversión en ese idioma de la comunidad, por lo que tiene sentido.

Comience con python: escribir código de python es similar a escribir pseudocódigo, y no hay mucha sintaxis para memorizar, lo obligará a escribir código que use la sangría adecuada, etc. También con su fondo de estadísticas podrá bucear en scipy, numpy y scikit aprende casi de inmediato, lo que te permite trabajar en tareas de análisis de datos.