La ciencia de datos se utiliza para extraer algunos conocimientos profundos de los datos estructurados o no estructurados. La extracción de conocimiento es la tarea principal de la ciencia de datos, por lo que serán útiles métodos como agrupamiento, clasificación, estadísticas, etc. Desde mi experiencia personal, las principales habilidades necesarias para la ciencia de datos son: –
- Un buen control de las matemáticas, especialmente en estadística.
- Aprendizaje automático: para obtener conocimiento sobre el aprendizaje automático o los algoritmos de minería de datos, como la regresión, la agrupación de K-means, etc.
- Habilidades de programación (Python, Java)
¿Por qué un buen control de las matemáticas?
Tomemos un ejemplo de anomalía o detección de valores atípicos que se ocupa de encontrar patrones en datos que no se ajustan al comportamiento normal esperado. Con el método IQR (Inter Quartile Range), podemos detectar fácilmente los valores atípicos en nuestros datos numéricos. Hay otros métodos presentes también para resolver este problema, como MAD (desviación absoluta media), pero es solo un ejemplo para mostrar la importancia de las estadísticas en la ciencia de datos.
- ¿Puedes trabajar remotamente como científico de datos?
- ¿Qué es la clasificación en minería de datos?
- ¿Cuáles son los beneficios de una buena gestión de datos?
- ¿Cuáles son las posibles mejoras en mi currículum para un trabajo de ciencia de datos?
- Cómo acceder a los valores de estas variables MATLAB en base a una matriz que almacena los índices de las columnas requeridas
¿Por qué el aprendizaje automático?
La ciencia de datos se ocupa de diferentes tipos de datos (numéricos, categóricos o muchos más) de tamaño pequeño a grande. Para procesar una gran cantidad de datos, los algoritmos deberían funcionar de manera eficiente (aquí significa eficientemente que la complejidad de espacio y tiempo debe ser óptima). Algunos algoritmos básicos como la regresión lineal, la agrupación de vecinos K-Nearest, la máquina de vectores de soporte, que funciona de manera eficiente. Hay muchos más.
Puede ver una buena serie de videos del Dr. Andrew NG para aprender estas habilidades que se pueden aplicar a la Ciencia de Datos.