Aunque puede escribir códigos de ciencia de datos en la mayoría de los lenguajes de programación importantes, si tiene en mente hadoop, entonces el conocimiento básico de Java seguramente sería una ventaja.
También debe conocer al menos un lenguaje de script bien. A menudo, los archivos de entrada / salida requieren un procesamiento posterior que debe codificarse rápidamente. Aquí, Python es mi elección. El conocimiento básico de los scripts de bash también puede ayudar.
También debe conocer el paradigma de reducción de mapas en el que un gran problema se divide en subproblemas independientes más pequeños (mapas) que pueden ejecutarse en paralelo y los resultados de esos subproblemas se combinan (reducen) para producir el resultado.
- ¿Qué tiene que ver el 'big data' con las predicciones?
- ¿Cuándo se usaría un modelo oculto de Markov en lugar de una red neuronal recurrente?
- Ciencia de datos: ¿Es cierto que actualmente existe un auge en este dominio y la mayoría de las empresas están buscando científicos de datos?
- ¿Cuál es la mejor manera de hacer un curso sobre big data en India?
- ¿Qué es la clasificación?
El conocimiento de lenguajes de análisis de datos como R, MATLAB, etc. puede ayudarlo. Pero eso probablemente dependerá del proyecto específico en el que esté trabajando. Creo que aquí el conocimiento teórico y práctico del aprendizaje automático y los algoritmos de análisis estadístico son más importantes que las habilidades de codificación.
En general, el conocimiento de algoritmos, estructuras de datos y mejores prácticas son siempre más importantes que las habilidades de codificación. No solo en Data Science sino también en programación en general.
Gracias por el A2A.