Ese suele ser el trabajo del científico de datos y la diferencia entre ellos y un estadístico o analista puro.
A veces hay roles en capas dentro de una unidad para permitir que los programadores programen, seleccionen y consulten datos de manera relevante y que los consultores perspicaces se superpongan para gestionar y tomar sus resultados y aplicarlos al mundo real.
Sin embargo, un científico de datos generalmente comienza con un problema del mundo real e investiga a través de los datos para preparar hallazgos y traducirlos en una historia relevante para la situación en la que están explorando / buscando una solución. Normalmente comienzan con el espacio del problema y exploran desde allí .
- ¿Por qué la clasificación funciona mejor para predecir conjuntos de datos con categorías nominales o binarias que los conjuntos de datos con categorías ordinales (como las clases de ingresos)?
- ¿Qué herramientas hay para automatizar la ciencia de datos?
- ¿Cuáles son los mejores campos de entrenamiento de ciencia de datos?
- ¿Cuáles son los pros y los contras de usar Kaggle Scripts?
- Cómo analizar adecuadamente los datos y obtener información útil
Un científico de datos puede no ser un estadístico. Les ayudará si lo son, pero puede que no lo sean. Si lo son, tendrán la ventaja de poder discernir entre lo que es apropiado analizar con qué tipo de análisis o estadísticamente relevante en los resultados a través del conocimiento.
Por otro lado, un estadístico a veces puede buscar una solución pura del problema mediante la aplicación de las matemáticas cuando se requiere algo más pragmático para lograr un resultado comercial dentro de un entorno restringido.
Un ejemplo que recuerdo fue la solución del equipo del centro estadístico de excelencia a un problema de análisis de importancia para una campaña de marketing en línea donde estaban probando muchas celdas de oferta promocional para audiencias aleatorias y utilizando bootstrapping para aumentar el tamaño de las muestras mientras buscaban aumentar los niveles de confianza. A través de una explicación cuidadosa, mostramos cómo esto era defectuoso como un enfoque al pasar por su enfoque y aplicarlo a la realidad.
Nuestro equipo de ciencia de datos decidió utilizar los datos reales dentro de un sólido marco de prueba y medición que pudimos incorporar a un conjunto automatizado de medición de rendimiento de campaña y lanzar a nivel mundial con velocidad y escala.