En términos genéricos, una tubería tiene entradas que pasan por una serie de pasos de procesamiento encadenados de alguna manera para producir algún tipo de salida.
Una tubería de análisis de datos es una tubería para el análisis de datos.
Por lo general, se realizan en algún entorno gráfico como Alteryx o KNIME (con pasos de script en R o Python, por ejemplo), cada paso lógicamente siguiendo cada paso. A menudo hay preprocesamiento, verificación de datos, análisis, verificaciones de análisis, verificaciones de visualización, etc., etc., antes del resultado final, que generalmente es un producto de datos o un conjunto de decisiones y sus soportes.
- ¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?
- ¿Cuál es la mejor manera de automatizar el análisis de datos en línea?
- ¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?
- ¿Hay algún campo de arranque de ciencia de datos en línea?
- ¿Cuál es la elegibilidad para big data?
Se hacen para facilitar el análisis de datos.
Una advertencia antes de construir su tubería: asegúrese de explorar sus datos (al menos tanto como pueda) antes de hacer suposiciones sobre ellos. Y recuerde implementar controles para ver que las suposiciones que haga no hayan cambiado. No puedo enfatizar esto lo suficiente. Es la diferencia entre un buen producto y un desastre total.