¿Qué programación es beneficiosa para los científicos de datos?

Hay un par de actividades principales para un científico de datos. Dicho esto, un científico de datos puede tener que hacer uno de ellos, o todos. En general, necesitaría habilidades de programación para algunos ETL, preprocesamiento, análisis de datos, aprendizaje automático, visualización, tal vez extracción de datos, raspado, etc.

En términos muy generales , el trabajo implica trabajar con datos , a través de estadísticas , para analizar patrones y, a menudo, predecir algo. Veamos qué lenguajes de programación pueden ser beneficiosos usando este pequeño marco.

  1. Trabajando con datos. El primer lenguaje que viene a la mente es SQL . SQL es extremadamente potente y bastante rápido, ya que es el lenguaje para bases de datos. Cuando necesite extraer, transformar y cargar o preprocesar, SQL puede ser beneficioso, como se indica en la pregunta. Sin embargo, puede realizar el preprocesamiento en un lenguaje diferente, como Python , aunque un poco más lento. Realmente depende de la tarea en cuestión.
  2. Estadística. Naturalmente, dado que las estadísticas son una gran parte del trabajo, le gustaría usar un lenguaje que esté optimizado para eso. Hay dos opciones muy populares: R y Python . Solicitar un trabajo en ciencia de datos normalmente requeriría su conocimiento de al menos uno de esos. R está organizado en torno a estadísticas, mientras que Python es un lenguaje de propósito general con bibliotecas muy potentes (como NumPy, SciPy).
  3. Analizar. Similar al punto anterior, R y Python se usan mucho para el análisis de datos. R fue creado para ese propósito y ha ganado gran popularidad en los últimos años, debido al aumento de la ciencia de datos. Ambos idiomas, por supuesto, dependen de los diferentes paquetes creados para ellos. Como tanto R como Python son de código abierto, en realidad están atrayendo mucho interés de las personas que desarrollan paquetes (a diferencia de MATLAB, que está disminuyendo por esa misma razón). Sin embargo, MATLAB también es un lenguaje útil para saber.
  4. Predecir. La predicción generalmente se realiza a través de algún tipo de modelo predictivo, a menudo desarrollado a través del aprendizaje automático. Eso se debe a la superioridad de la predicción de los modelos ML para … sobre todo lo que hemos visto hasta ahora. Una vez más, los lenguajes adecuados serían Python, R, MATLAB. Sin embargo, Python parece estar en la cima de la escalera aquí. Conducción de bibliotecas relevantes que son sk-learn y TensorFlow.

    Ahora, TensorFlow es probablemente una razón muy importante por la que Python está haciendo tan bien para ML. Como TensorFlow es la biblioteca, desarrollada por Google para DNN, CNN, RNN, cada vez más personas optan por usarla. Sin embargo, actualmente es más compatible con Python. TensorFlow está buscando colaboradores para desarrollar la biblioteca en su totalidad para C, C ++, Java, etc., pero hasta ahora la funcionalidad completa de la biblioteca solo está disponible para Pythonistas.

A medida que formuló su pregunta, un lenguaje ‘beneficioso’ también puede ser VBA (si realiza lo que sea en Excel), C (por su velocidad muy superior), y así sucesivamente.

Esencialmente, si quieres aprender un idioma, iría por Python. El conocimiento de R, MATLAB y SQL seguramente será muy beneficioso. Por otra parte, depende de en qué parte del espectro de ciencia de datos se encuentre.

Tendrá que escribir scripts para importar o raspar datos y luego procesarlos con tuberías.