Data Science es una gran gota borrosa que no está necesariamente bien definida, pero hay algunas cosas que la hacen bastante diferente de lo que vería hacer a los típicos “analistas de datos” o personas de “inteligencia de negocios”.
En mi experiencia, y su kilometraje puede variar, los científicos de datos son expertos en al menos uno de dos campos muy amplios. Uno es la inferencia estadística, y el otro es el aprendizaje automático o el modelado predictivo. Estos campos usan muchas de las mismas herramientas, pero las usan de diferentes maneras y con diferentes fines. Un científico de datos estará significativamente (sin juego de palabras) más versado en ambos que un analista de datos típico o una persona de inteligencia de negocios.
El trabajo típico de tipo BI implica cosas como calcular KPI, informar KPI, construir paneles para monitorear KPI, rastrear KPI a lo largo del tiempo, comparar diferentes KPI, muchas cosas de KPI. Los analistas generalmente serán muy buenos con Excel, con suerte bastante buenos para hacer cosas ETL con SQL o similar, y buenos para usar herramientas como Tableau para ilustrar patrones en los datos y crear paneles o informes. Raramente tendrán la necesidad de tomar cualquiera de estos datos y conectarlos a cualquier tipo de modelo estadístico.
- Matemáticamente hablando, ¿cuándo los números de lotería ganadores del pasado afectan los sorteos futuros?
- ¿Por qué funciona la ciencia de datos?
- ¿Vale la pena tomar el curso para desarrolladores de Big Data Hadoop de simplilearn.com?
- Cómo pasar del freelance de ingeniería de software al freelance de machine learning / data science
- Cómo solicitar una pasantía de Data Science en Amazon
Los científicos de datos suelen estar más interesados en la inferencia ( ¿cuál es el efecto de X en Y? ) O en la predicción ( ¿qué aspecto tiene Y dada X? ). Ambos problemas requieren un poco más de experiencia técnica que las cosas que he descrito como parte del trabajo típico de BI.
Para el problema de la inferencia, uno requiere un fondo estadístico bastante fuerte, probablemente al menos un título universitario en estadística o matemáticas, o un grado cuantitativo de algún tipo emparejado con un estudio bastante intensivo. Un científico de datos en este tipo de posición a menudo hará cosas como supervisar y evaluar pruebas A / B o tipos similares de generación de conocimiento experimental, o hará otros tipos de investigación estadística intensiva sobre problemas de negocios.
Para el problema de la predicción, uno requiere más experiencia en aprendizaje automático, que puede provenir de una educación en informática o de nuevo una gran cantidad de autoaprendizaje. Un científico de datos que trabaje en predicción hará cosas como construir modelos para predecir el comportamiento del cliente u otros tipos de resultados comerciales.
Además, hay una capa completa que se está volviendo cada vez más importante, que es una familiaridad con las herramientas de big data, en particular, los sistemas informáticos distribuidos. Muchas organizaciones recopilan cantidades masivas de datos con las que quieren hacer cosas de ciencia de datos, pero hacer cosas de ciencia de datos en esa escala es imposible en una sola computadora, por lo que los científicos de datos deben ser buenos para usar herramientas que les permitan realizar su trabajo usando estructuras tipo nube.