¿Cuál es el mejor idioma para aprender a entrar en la ciencia de datos o big data en los requisitos actuales como graduado de comercio?

Voy a responder a esto de dos maneras diferentes.

  1. Asumiendo que no tienes experiencia en programación.

Adivina qué, curiosamente, esto puede ser realmente bueno para ti. Las personas que conocen la programación, que intentan aprender algo, son como jugadores de tenis con una técnica establecida que intenta cambiar la forma en que sirven. Es realmente difícil detener su forma de pensar en la memoria muscular.

Por ejemplo, para codificar recientemente la regresión en un conjunto de datos laaaarge, en lugar de simplemente usar XW = Y, aplicar la codificación CSR y terminarla sin problemas, encapsulé todo como objetos y escribí una reina del drama de un repositorio que tardó años en ejecutarse.

Entonces, mi punto más importante es que usted no tiene la carga de paradigmas establecidos y debe comenzar con R. R está escrito por estadísticos para estadísticos. Es muy útil para usted centrarse en el problema en lugar del código

2. Suponiendo que conoces un lenguaje tradicional como Java

Vaya a Python y sus millones de bibliotecas (numPy, Scipy, SciKitLearn et al.). Están muy bien documentados. Inicialmente tendrá dificultades con las cosas “pitónicas”, pero lo superará lo suficientemente rápido y luego es un proceso de aprendizaje muy rápido. El único inconveniente es la velocidad porque Python es casi un idioma además de un idioma, porque te lo hacen más fácil, es más difícil para la máquina entenderlo rápidamente y no hay escapatoria del “trabajo” (ya sea por ti o por la máquina, el el trabajo neto realizado será una constante).

PD: Gracias hombre, me pediste que escribiera esto: Minería de datos: mi mundo de características y objetos

El lenguaje de programación Python debe ser el idioma de acceso para un principiante. Tiene una amplia gama de bibliotecas muy útiles como numpy, pandas y matplotlib para la exploración y visualización de datos. Además, la biblioteca de python scikit-learn le proporciona algoritmos / modelos de aprendizaje automático para usar en su conjunto de datos para la selección de características, capacitación y pruebas y mucho más a medida que profundiza en la ciencia de datos.

Depende de la industria y el problema. Si está trabajando con big data / internet / tech, python es probablemente el más útil. Si estás en otra industria o eres nuevo en programación, R es probablemente el mejor. Sin embargo, algunas industrias (farmacia, seguros, banca, visión por computadora) requieren otro software como SAS o Matlab.