¿Puede uno convertirse en un exitoso arquitecto de Big Data sin aprender Data Science? ¿Cuál es la diferencia entre el arquitecto de Big Data y el científico de datos?

De acuerdo con Marcin. Los científicos de datos pueden aprovechar la infraestructura de Big Data por un arquitecto de Big Data. En mi opinión, algunas de las consideraciones clave que un arquitecto de Big Data debería conocer son las siguientes, de las cuales el análisis de datos / ciencia es parte (punto 3 a continuación):

1) Ingestión de datos – lote y transmisión

2) Almacenamiento de datos: almacenamiento distribuido, NoSQL

3) Procesamiento y análisis **: procesamiento por lotes, procesamiento de flujo, análisis. Aquí, el arquitecto de Big Data debería al menos conocer las API / herramientas de análisis disponibles para poder recomendarlas e incluirlas en la infraestructura de Big Data (según el caso de uso empresarial y las preferencias de los científicos de datos también). Algunos de los factores a considerar en una herramienta para habilitar a un científico de datos podrían ser: tipos de algoritmos disponibles, soporte de idioma nativo, conectividad con el entorno de Big Data, capacidades de análisis de datos, perfiles de datos, etc.

4) Consumo – consumo de lote o flujo

5) Necesidades de hardware para varios componentes del entorno distribuido de Big Data

6) Necesidades operativas del entorno de Big Data

Apache HadoopBig DataCiencia de datosOrientación profesional

¿Cuánto más complejo es el desarrollo de IA en comparación con el desarrollo de aplicaciones móviles sociales?

¿Cuál es la diferencia entre data mining y data warehouse?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?

¿Cuáles son los requisitos previos para los bootcamps de ciencia de datos?

¿Por qué las llamadas de línea automatizadas en el tenis profesional se basan en un modelo estadístico (Hawk-Eye) en lugar de solo fotografía directa (con cámaras de alta capacidad)?

¿Cómo debo ir de donde estoy ahora a una carrera en ciencia de datos?

¡Gracias por los múltiples A2A! 🙂

Esta es mi experiencia personal con respecto a este asunto.

En Miniclip tenemos un equipo de ciencia de datos y un equipo de ingeniería de datos. El equipo de ingeniería de datos maneja todas las cosas de big data. Con el trabajo, el equipo de ciencia de datos podría hacerlo, pero lo haríamos peor y más lento … ¡no queremos eso! 🙂

El equipo de ingeniería de datos realmente no necesita entrar en detalles del conocimiento del dominio de la forma en que va el equipo de ciencia de datos. Sin embargo, saben bastante de aprendizaje automático y en proyectos de datos automatizados más grandes trabajamos juntos.

Entonces, en mi opinión, puede convertirse en un exitoso arquitecto / ingeniero de big data sin ciencia de datos, es decir, sin el dominio / conocimiento algorítmico de que las empresas dependen de los científicos de datos. Sin embargo, serás un ingeniero de datos mucho mejor si lo haces.

Steve Chappel

En pocas palabras, un ingeniero de Big Data construye / diseña una infraestructura de Big Data que los científicos de datos pueden usar para extraer información de los datos. Los científicos de datos no necesariamente usan big data, por eso dije que sí.

Un arquitecto es un puesto de alto nivel, por lo que sería un gran ingeniero de datos con más de 10 años de experiencia y un sólido conocimiento del espacio (es decir: los años no son suficientes). En términos prácticos, si eres lo suficientemente mayor como para ser un arquitecto legítimo, debes tener una cantidad práctica de conocimiento de ciencia de datos hoy en día. Es difícil diseñar y construir una infraestructura si no está familiarizado con la forma en que las personas la usarán.

Marcin Mejran

More Interesting

Tengo una prueba técnica de 20 minutos para el puesto de pasante de análisis de datos. Esta es mi primera entrevista de este tipo. ¿Qué puedo esperar en la prueba técnica?

¿Cómo utiliza un científico de datos herramientas de control de versiones como GIT y SVN?

Cómo prepararse para un curso de Big Data Analytics en la extensión de Harvard

¿Cuál es la diferencia entre roaming de datos y datos móviles?

¿Dónde puedo encontrar un ejemplo completo de análisis de datos / proyectos de ciencia de datos?

¿Puedo usar el algoritmo de aumento de gradiente para datos con tiempo (año) y latitudes y longitudes como predictores?

¿Cuál es la diferencia entre Hadoop y big data?

¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

¿Cuál es el alcance futuro de la ciencia de datos con Python en India?

¿Por qué Sebastian Raschka no termina su doctorado?