¿Qué lenguaje de programación debo aprender para comenzar primero con mi ruta autodidacta de Data Scientist: R o Python?

Depende de lo que quiere decir con “científico de datos”, principalmente. En general, R es el mejor para el análisis estadístico convencional en datos pequeños y medianos. Su biblioteca de paquetes no tiene paralelo, y está diseñada específicamente para análisis exploratorios.

Python es un lenguaje de programación más general y, por lo tanto, le permite realizar una mayor transformación de los datos e integrarse con otros sistemas de software más fácilmente en el mismo programa. Es menos especializado para análisis, pero su biblioteca de software es más amplia y general.

Realmente, el lenguaje en sí no es el factor principal. No creo que nadie piense que R es un buen lenguaje; Es legado. Pero funciona lo suficientemente bien como para admitir el uso de sus excelentes paquetes.

Python también en mi humilde opinión no es un buen lenguaje per se. Ha sido diseñado y conformado para una escala más pequeña, desarrollo rápido de software similar a un script. Tiene dificultades en comparación con Scala + JVM y su conjunto de herramientas para la implementación de software a gran escala. Pero, la ciencia de datos se trata principalmente de hacer programas cortos tipo script. Entonces, esto no es simplemente un problema, si no una fortaleza, para Python.

Pitón.

Mi descargo de responsabilidad habitual en Python vs R: Mi idioma favorito es Python. El idioma que más uso es R.

Supongo que no tienes conocimientos de programación. Si ese es el caso, animo a Python. También animo (incluso si creo que sucederá tarde o temprano) que aprendas R cada vez que te sientas cómodo.

Mi razonamiento es que Python es un lenguaje de programación genérico, no un dominio específico. En el futuro, ser más un programador que un programador de dominio pagará dividendos. En una nota personal, prefiero sklearn a descuidar, por ejemplo, pero eso puede deberse a que soy más un tipo de programación orientado a objetos que un tipo de programación funcional.

¡La mejor de las suertes!

Una de las habilidades de un buen científico de datos es la programación. Entonces, concéntrate en ser un buen programador. Creo que Python hará que sea más fácil enfocarse primero en la programación: es un lenguaje muy diseñado, hay muchos recursos para aprender y la cantidad de bibliotecas es una locura. Una vez que se sienta cómodo con los conceptos detrás de la programación, puede pasar a cualquier otro lenguaje de programación (desde R hasta Mathlab).

Tenemos muchos estudiantes que provienen de entornos de economía y biología que quieren comenzar a procesar datos, y hacemos que todos se centren en lo mismo: convertirse primero en un buen programador. Todos lo han hecho realmente bien hasta ahora, así que creo que es el camino a seguir.