Si pudiera contratar a 4/5 científicos / ingenieros para un equipo de análisis de big data centrado en elegir y responder preguntas comerciales concretas (por ejemplo, predecir una solicitud de producto), ¿cómo lo construiría?

Si su objetivo es crear productos, entonces necesita crear un equipo que sea capaz de construir productos de extremo a extremo. Yo sugeriría:

  • 1 Científico de datos que puede escribir código de calidad de producción. Debe tener una buena idea de algoritmos y soluciones escalables.
  • 1-2 Ingeniero de pila completa / ingeniero de datos para back-end y “big data”.
  • 1 ingeniero front-end (especialidad de visualización de datos)
  • 1 gerente de producto / consultor / persona de negocios. Necesitan comprender la ciencia de datos y el usuario comercial para enmarcar los problemas de manera que puedan resolverse.

Por supuesto, en el mundo real es difícil poner a las personas en estas cajas. Puede encontrar un científico de datos que sea excelente en el trabajo de front-end, etc. Debe asegurarse de tener cubiertas estas habilidades o de lo contrario no podrá construir un producto completo:

  • Gestión de bases de datos / big data
  • Parte posterior (fontanería)
  • Visualización de datos y UI / UX
  • Algoritmos, aprendizaje automático, análisis estadístico.
  • “Habilidades de las personas”: ventas, biz-dev, investigación de usuarios

Responder preguntas comerciales concretas es lamentablemente vago. ¿Estás haciendo un análisis único o estás construyendo sistemas automatizados? Si está automatizado, ¿con qué frecuencia fluyen nuevos datos y con qué frecuencia necesita actualizar? ¿Qué tan amplios son los datos y el conjunto de preguntas? ¿Necesita exprimir cada gramo de información o está resolviendo un centenar de problemas superficiales? ¿Son las preguntas bastante conocidas o necesitarás resolver las preguntas para hacerlas también? ¿Con cuánta burocracia tendrás que lidiar? ¿Existe una infraestructura de big data existente o necesitará construirla?

Todo esto afectará el tipo de equipo que buscará y, como mínimo, el equilibrio de habilidades en el equipo.

Mi consejo general es contratar primero a alguien que pueda hablar con el lado comercial, que tenga experiencia comercial y que pueda cerrar la brecha entre la tecnología y la experiencia comercial. Probablemente sea un gerente técnico de producto, aunque podría ser un ingeniero.

Luego, contrate a cuatro personas que puedan trabajar eficazmente en equipo, sean competentes, tengan una buena ética de trabajo, etc. Asegúrese de tener una combinación de ingeniería de software, piratería, ingeniería de datos, aprendizaje automático, análisis, estadísticas y visualización en el grupo. Cada habilidad principal debe ser compartida por al menos dos personas, aunque una puede ser el experto principal. Adapte a las personas al problema real que resolverá (vea las preguntas en la parte superior).

Luego, asegúrese de tener una buena combinación de rasgos de personalidad además de eso. Cuatro perfeccionistas del TOC conducirán a resultados muy precisos y muy lentos, lo que probablemente hará que su equipo sea despedido. Cuatro piratas informáticos conducirán a resultados muy desordenados y muy rápidos que probablemente harán que su equipo sea despedido. Asegúrese de tener al menos un líder en ese grupo también.

En términos generales, la contratación es difícil, ruidosa e imperfecta. Con el objetivo de contratar a cuatro o cinco personas que se ajusten exactamente a una noción o plantilla preconcebida es una locura. Es un proceso orgánico basado en el talento disponible y el talento que ya está en el equipo (en términos de personalidad y habilidades).

De hecho, estoy a punto de unirme a un equipo que está haciendo algo muy similar. En mi opinión, necesitaría una variedad de habilidades en el equipo para llevar a cabo este tipo de operación. Especialmente si los datos son realmente “grandes”, en cuyo caso la escalabilidad es un problema real. Aquí está el equipo que creo que necesitas.

1) Experto en dominios: la ciencia de datos, por su naturaleza, es necesaria en una variedad de dominios. Aunque creo que todas las respuestas están ocultas en los números, alguien necesita saber qué significan las respuestas para el dominio específico. Ahí es donde entra el experto en dominios.

2) Estadístico con experiencia en informática: los estadísticos son clave para este tipo de proyectos. Si está buscando respuestas concretas que requieren un análisis estadístico, aquí es más útil. La experiencia de programación les permite usar lenguajes como R y SAS para abordar conjuntos de datos más grandes y encontrar respuestas estadísticamente significativas a preguntas comerciales.

3) Científico de datos: ahora el título “Científico de datos” ha adquirido muchas definiciones desde su inicio. Lo que quiero decir aquí es una persona con buenas habilidades de comunicación, una sólida comprensión de la informática, estadística y matemáticas y experiencia con algoritmos de aprendizaje automático. Además, requieren pasión por los datos y deben estar al tanto de las últimas tecnologías. Esta es la persona que responderá las preguntas confusas, realizará el modelado predictivo y trabajará con su experto en dominios para profundizar cada vez más en sus datos y descubrir respuestas cuyas preguntas tal vez aún no se hayan formulado.

4) Ingeniero de software: a medida que los datos crecen y los datos se vuelven más específicos del dominio, los algoritmos actuales de aprendizaje automático deben ajustarse y ajustarse. Este es el miembro del equipo que trabajará con el Data Scientist en los algoritmos de aprendizaje automático. Su enfoque principal será optimizar el código y lograr que los algoritmos se ejecuten más rápido en conjuntos de datos más grandes sin comprometer los algoritmos mismos. Esta persona será clave para la escalabilidad.

5) Arquitecto de sistemas: El arquitecto de sistemas es el tipo que va a mantener servidores y máquinas. Su trabajo es identificar qué tipos de máquinas se necesitan para qué tareas, mantener clústeres para análisis a mayor escala, trabajar en la instalación de las últimas soluciones de datos, ocuparse de las redes y la seguridad de los datos y manejar la tarea masiva de mantener el almacén de datos. El propio almacén de datos podría utilizar un sexto especialista, cuyo único trabajo es mantener las bases de datos, tanto temporales como permanentes, optimizar la recuperación de datos, vigilar las preocupaciones de seguridad y manejar las fallas de redundancia en caso de falla de cualquiera de los sistemas de bases de datos.

Ahí tienes. Podría estar muy molesto con esto ya que en realidad no he estado en uno de estos equipos, solo me uniré a uno pronto.

La diversidad es clave para los equipos de análisis de alto rendimiento. Una buena combinación de ingenieros (gestión de datos y trabajo pesado de datos), científicos (razonamiento estadístico y aprendizaje automático, sentido, visualización), expertos en negocios (expertos en el tema), todos con una perspectiva creativa. Se puede agregar un líder para mantener el enfoque en el producto principal en caso de un buen líder 🙂

En mi humilde opinión

Los entrenaría bien. Encuentre un buen cliente y comience a resolver sus problemas. No hay nada mejor que trabajar con clientes del mundo real y datos del mundo real.

Lo haría a través de una plataforma muy visual, ¿por qué? Por lo general, esta gente tendrá que transmitir las ideas obtenidas de su análisis y la mejor manera de hacerlo es a través de análisis muy visuales.

Además, les proporcionaría una plataforma sugerente y de colaboración que mejorará el poder del equipo.

Necesita una plataforma de descubrimiento y visualización de datos que tenga la capacidad de conectar datos, conocimientos y personas.

La única solución que sé que puede hacer es Panorama Necto.

En cambio, contrataría a un gerente de producto realmente bueno.

More Interesting

¿Cuál es la maldición de los grandes datos?

¿Cómo son exactamente estos 'X mil millones de hechos' en la red semántica de Google Knowledge Graph / Vault?

Cómo usar Python para ciencia de datos

¿Cuál es el estado actual del estudio y la investigación de la ciencia de datos en la India en comparación con otros países?

¿En qué mercados e industrias destaca más R (lenguaje de programación)? ¿Es big data / data science?

¿Por qué no se puede usar R para escribir código de grado de producción? ¿Por qué Python no se usa también para la creación de prototipos?

¿Cuál es la mejor manera de encontrar la compañía adecuada para externalizar una tarea de minería de datos en la India?

¿En qué se diferencia el ingeniero de Business Intelligence, el ingeniero de datos, el analista de BI, el analista de datos, el desarrollador de BI, el analista de programadores y el analista de sistemas?

¿Cuánto se relacionan estos términos como ciencia de datos, aprendizaje automático, inteligencia artificial e internet de las cosas con el mundo venidero? ¿De dónde puedo aprender estos temas? ¿Cuánto están relacionados con la ingeniería de comunicación electrónica?

¿Cuál es el mejor entre las redes, big data y tecnología en la nube?

¿Puedes trabajar remotamente como científico de datos?

¿Cuál es el límite de tamaño de archivo en una carga a Slack?

¿Podemos usar Big Data en la construcción?

Si tuviera que configurar un programa de aprendizaje de ciencias de datos de 3 meses para principiantes, ¿cuál sería el mejor programa y la línea de tiempo?

¿Cuál es el lenguaje de programación más poderoso en el campo de Analytics / Data Science: Python, R o SAS?