De acuerdo con Marcin. Los científicos de datos pueden aprovechar la infraestructura de Big Data por un arquitecto de Big Data. En mi opinión, algunas de las consideraciones clave que un arquitecto de Big Data debería conocer son las siguientes, de las cuales el análisis de datos / ciencia es parte (punto 3 a continuación):
1) Ingestión de datos – lote y transmisión
2) Almacenamiento de datos: almacenamiento distribuido, NoSQL
- ¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?
- ¿Cuáles son algunas fuentes de donde puedo encontrar conjuntos de datos abiertos para el análisis de aprendizaje y una investigación educativa de minería de datos?
- ¿Puedo convertirme en un científico de datos sin aprender Python, pero solo con conocimientos de programación Java y aprendiendo el lenguaje R?
- ¿Qué es la optimización basada en sustitutos?
- Cómo mejorar sus habilidades de análisis de datos a diario
3) Procesamiento y análisis **: procesamiento por lotes, procesamiento de flujo, análisis. Aquí, el arquitecto de Big Data debería al menos conocer las API / herramientas de análisis disponibles para poder recomendarlas e incluirlas en la infraestructura de Big Data (según el caso de uso empresarial y las preferencias de los científicos de datos también). Algunos de los factores a considerar en una herramienta para habilitar a un científico de datos podrían ser: tipos de algoritmos disponibles, soporte de idioma nativo, conectividad con el entorno de Big Data, capacidades de análisis de datos, perfiles de datos, etc.
4) Consumo – consumo de lote o flujo
5) Necesidades de hardware para varios componentes del entorno distribuido de Big Data
6) Necesidades operativas del entorno de Big Data