Para llegar a la respuesta a la pregunta, primero debemos definir: ¿Qué es un proyecto de ciencia de datos?
Proyecto de ciencia de datos
Para obtener un impulso medible de cualquier actividad de Data Science, debe seguir un proceso. Aquí hay una vista del proceso – Evolucionado en base al artículo de Jeremy Howard – Diseñando excelentes productos de datos
Un ejemplo de este proceso para un proyecto que implica Mejorar la retención del Cliente podría ser el siguiente.
Ahora las habilidades requeridas en varias etapas del proyecto son diferentes. Aquí hay una vista de las habilidades a lo largo de cada etapa.
Data Science hoy se define principalmente como el cuadro que habla sobre la creación de modelos.
- ¿Cuál es el mejor ejemplo de big data?
- ¿Son iguales los trabajos de análisis de datos y ciencia de datos?
- ¿Vale la pena aprender R, o puedo usar Python para la ciencia de datos?
- ¿Qué tan relevante es el análisis de Big Data para la economía global actual?
- ¿Cuál es la mejor manera de aprender analítica de personas?
Avance rápido a 10 años
Mi opinión es que la tarea de crear modelos se está volviendo cada vez más automatizada y en caja negra.
Con un nuevo software como: Torch 7, H20, MLLib, votepal wabbit, etc., se necesitarán las altas habilidades matemáticas para las personas que escriben el software de modelado. Para las personas que resuelven problemas de negocios como “Venta cruzada” o “Propensión a comprar modelos”, la mayor necesidad será enmarcar el enunciado del problema y organizar los datos correctos para el problema de modo que puedan introducirse en este software de modelado.
Tenga en cuenta que Kaggle se centra más o menos en el aspecto de modelado solo en el ciclo de vida de un proyecto de ciencia de datos. Y, cada vez más, las personas que dominan el software están ganando más concursos, como el vocalpal wabbit, H2o, etc.