Puede que la siguiente publicación sea útil: por qué Apache Spark es un éxito cruzado para los científicos de datos.
–
La ciencia de datos es una iglesia amplia. Soy un científico de datos, o eso me han dicho, pero lo que hago es bastante diferente de lo que hacen otros “científicos de datos”. Por ejemplo, hay quienes practican “análisis de investigación” y quienes implementan “análisis operativo” (estoy en el segundo campamento).
Los científicos de datos que realizan análisis de investigación utilizan entornos estadísticos interactivos como R para realizar análisis exploratorios ad-hoc para responder preguntas y obtener información. Por el contrario, los científicos de datos que crean sistemas de análisis operativos tienen más en común con los ingenieros. Crean software que crea y consulta modelos de aprendizaje automático que operan a escala en entornos de servicio en tiempo real, utilizando lenguajes de sistemas como C ++ y Java, y a menudo utilizan varios elementos de un centro de datos empresarial, incluido el ecosistema Apache Hadoop .
Y hay subgrupos dentro de estos grupos de científicos de datos. Por ejemplo, algunos analistas que dominan R nunca han oído hablar de Python o scikit-learn , o viceversa, aunque ambos proporcionan bibliotecas de funciones estadísticas a las que se puede acceder desde un entorno REPL (Read-Evaluate-Print Loop).
- ¿Quién debería hacer big data?
- ¿Qué conjuntos de habilidades son imprescindibles para un aspirante a científico de datos además de la calificación educativa?
- ¿Hay algún beneficio al agregar las características originales junto con las reducidas por PCA?
- ¿Qué tipo de método de análisis estadístico usaría para analizar la significación estadística de los datos de 2 variables discretas?
- ¿Por qué el proyecto 'Análisis de sentimientos de Twitter' es tan popular / importante?