De acuerdo con Marcin. Los científicos de datos pueden aprovechar la infraestructura de Big Data por un arquitecto de Big Data. En mi opinión, algunas de las consideraciones clave que un arquitecto de Big Data debería conocer son las siguientes, de las cuales el análisis de datos / ciencia es parte (punto 3 a continuación):
1) Ingestión de datos – lote y transmisión
2) Almacenamiento de datos: almacenamiento distribuido, NoSQL
- ¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?
- ¿Qué es mejor, una maestría en MIS o en ciencia de datos?
- ¿Qué papel puede desempeñar la ciencia de datos en el análisis de existencias fundamental?
- ¿Qué tecnología tiene un futuro más brillante, el desarrollo de software full stack o el desarrollo de big data de Hadoop?
- ¿Cómo están transformando Big Data Solutions la publicidad digital?
3) Procesamiento y análisis **: procesamiento por lotes, procesamiento de flujo, análisis. Aquí, el arquitecto de Big Data debería al menos conocer las API / herramientas de análisis disponibles para poder recomendarlas e incluirlas en la infraestructura de Big Data (según el caso de uso empresarial y las preferencias de los científicos de datos también). Algunos de los factores a considerar en una herramienta para habilitar a un científico de datos podrían ser: tipos de algoritmos disponibles, soporte de idioma nativo, conectividad con el entorno de Big Data, capacidades de análisis de datos, perfiles de datos, etc.
4) Consumo – consumo de lote o flujo
5) Necesidades de hardware para varios componentes del entorno distribuido de Big Data
6) Necesidades operativas del entorno de Big Data