¿Qué herramientas e idiomas necesito saber para convertirme en un científico de datos en el futuro?

Data Science no se trata solo de programación. Se trata más de Matemáticas / Estadística.
El lenguaje que programe no importará mucho más que su enfoque hacia la selección de funciones y el algoritmo.

Teoría estadística: aprenda los conceptos básicos de la teoría de probabilidad y el análisis estadístico, incluida la teoría de muestreo, la prueba de hipótesis y las distribuciones estadísticas. Para el análisis estadístico, los temas incluyen correlación, desviaciones estándar y análisis de regresión básico, entre otros. Por lo general, uno o dos semestres de un curso de estadísticas en línea (como el curso en línea de la Universidad de Princeton ) cubre este material.

Habilidades de programación: para ser un científico de datos eficaz, se requiere conocimiento de los lenguajes de secuencias de comandos. Seleccionar cuáles es un tema de discusión. Mi opinión es esta:

SQL: No es realmente un lenguaje de ciencia de datos duro, pero refleja el hecho de que es probable que tenga que extraer datos usted mismo de las bases de datos relacionales. Además, SQL ahora está casi universalmente disponible como lenguaje de consulta en Hadoop (ya no es preciso llamarlo NoSQL).

Python: La gran discusión en los últimos cinco años más o menos ha sido sobre R versus Python. Python es mi elección como lenguaje de producción con una biblioteca de ciencia de datos muy generosa. Más importante aún, dado que SPARK se ha activado tan rápidamente como la herramienta preferida en Hadoop, Python funciona fácilmente aquí mientras que R no. En las encuestas más recientes, verá que Python se aleja de R.

SAS: Sí SAS. SAS era prácticamente el lenguaje de scripting original de DS antes de R y Python. Aunque se incluye aquí bajo habilidades de programación, puede aprender a usar los paquetes SAS a través de la interfaz de usuario de arrastrar y soltar con la misma facilidad. Dependiendo de la encuesta que esté leyendo , puede o no ver SAS en cada lista, pero en el mundo de la producción SAS es extremadamente común y tener esta habilidad es una ventaja competitiva definitiva. IBM SPSS es una opción, pero SAS tiene una gran ventaja en la adopción. Raramente encontrará SAS en el mundo del desarrollo.

Aprendizaje automático: los participantes aprenden técnicas de aprendizaje supervisadas y no supervisadas. Las técnicas de aprendizaje supervisadas incluyen árboles de decisión, Forrest aleatorio, regresión logística, redes neuronales y SVM. Las técnicas de aprendizaje no supervisadas incluyen agrupamiento, análisis de componentes principales y análisis factorial.

Hace solo un año o dos, no podía ser un científico de datos eficaz sin conocer el funcionamiento interno de estos algoritmos, incluida la forma de manipular sus parámetros de ajuste para optimizar los resultados. Sin embargo, las últimas noticias de última hora son la nueva disponibilidad de plataformas analíticas predictivas completamente automatizadas donde la selección y el funcionamiento de los algoritmos ML son manejados por AI.

La probabilidad de que su nuevo empleador tenga alguna de estas nuevas plataformas a mano todavía es bastante escasa pero crece día a día. Quizás usted sea quien sugiera que los utilicen. Realmente pueden acelerar el proceso de modelado. Hasta entonces, debe saber qué sucede bajo el capó de todos los algoritmos de ML principales.

Big Data Toolbox: es importante que los científicos de datos no solo aprendan los algoritmos necesarios, sino que también aprendan cómo esos algoritmos deben adaptarse para grandes conjuntos de datos. Por esta razón, el conocimiento básico de herramientas como Hadoop, Spark y una plataforma de análisis para grandes conjuntos de datos constituye un módulo dedicado.

Es aquí donde aprenderá cómo los modelos que construyó en la última sección se ponen en funcionamiento para ayudar a las decisiones comerciales. Hasta que estén operativas, no tienen valor.

También es aquí donde aprenderá los conceptos básicos de la transmisión versus el lote, tanto en el desarrollo como en la implementación del modelo. Spark ha llegado muy rápido con tasas de adopción extremadamente altas y es la herramienta básica ahora tanto para lotes como para transmisión.