¿Puede uno convertirse en un exitoso arquitecto de Big Data sin aprender Data Science? ¿Cuál es la diferencia entre el arquitecto de Big Data y el científico de datos?

De acuerdo con Marcin. Los científicos de datos pueden aprovechar la infraestructura de Big Data por un arquitecto de Big Data. En mi opinión, algunas de las consideraciones clave que un arquitecto de Big Data debería conocer son las siguientes, de las cuales el análisis de datos / ciencia es parte (punto 3 a continuación):

1) Ingestión de datos – lote y transmisión

2) Almacenamiento de datos: almacenamiento distribuido, NoSQL

3) Procesamiento y análisis **: procesamiento por lotes, procesamiento de flujo, análisis. Aquí, el arquitecto de Big Data debería al menos conocer las API / herramientas de análisis disponibles para poder recomendarlas e incluirlas en la infraestructura de Big Data (según el caso de uso empresarial y las preferencias de los científicos de datos también). Algunos de los factores a considerar en una herramienta para habilitar a un científico de datos podrían ser: tipos de algoritmos disponibles, soporte de idioma nativo, conectividad con el entorno de Big Data, capacidades de análisis de datos, perfiles de datos, etc.

4) Consumo – consumo de lote o flujo

5) Necesidades de hardware para varios componentes del entorno distribuido de Big Data

6) Necesidades operativas del entorno de Big Data

¡Gracias por los múltiples A2A! 🙂

Esta es mi experiencia personal con respecto a este asunto.

En Miniclip tenemos un equipo de ciencia de datos y un equipo de ingeniería de datos. El equipo de ingeniería de datos maneja todas las cosas de big data. Con el trabajo, el equipo de ciencia de datos podría hacerlo, pero lo haríamos peor y más lento … ¡no queremos eso! 🙂

El equipo de ingeniería de datos realmente no necesita entrar en detalles del conocimiento del dominio de la forma en que va el equipo de ciencia de datos. Sin embargo, saben bastante de aprendizaje automático y en proyectos de datos automatizados más grandes trabajamos juntos.

Entonces, en mi opinión, puede convertirse en un exitoso arquitecto / ingeniero de big data sin ciencia de datos, es decir, sin el dominio / conocimiento algorítmico de que las empresas dependen de los científicos de datos. Sin embargo, serás un ingeniero de datos mucho mejor si lo haces.

En pocas palabras, un ingeniero de Big Data construye / diseña una infraestructura de Big Data que los científicos de datos pueden usar para extraer información de los datos. Los científicos de datos no necesariamente usan big data, por eso dije que sí.

Un arquitecto es un puesto de alto nivel, por lo que sería un gran ingeniero de datos con más de 10 años de experiencia y un sólido conocimiento del espacio (es decir: los años no son suficientes). En términos prácticos, si eres lo suficientemente mayor como para ser un arquitecto legítimo, debes tener una cantidad práctica de conocimiento de ciencia de datos hoy en día. Es difícil diseñar y construir una infraestructura si no está familiarizado con la forma en que las personas la usarán.