¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

Divulgación completa: soy el científico jefe de datos en Domino Data Lab. Sin embargo, fui usuario de su plataforma de ciencia de datos y asesor durante años antes de comenzar a trabajar allí, por lo que puedo proporcionar algo de color. Utilicé a Domino como científico de datos independiente, en un equipo de proyecto y como educador. Estos son los beneficios que recibí de Domino en esos tres escenarios:

Como un científico de datos independiente

Por un corto tiempo, mi esposa y yo dirigimos una firma de consultoría independiente. Es una evaluadora de programas muy talentosa, una investigadora de métodos mixtos y ha enseñado estadísticas de nivel de doctorado en R que se combinaron muy bien con mi conjunto particular de habilidades. Durante este tiempo, nos encontramos necesitando algunas cosas:

  1. Acceso a hardware escalable sin costo fijo
  2. Una herramienta para compartir resultados de análisis con clientes

Domino proporcionó a ambos bien. Pude aprovechar la infraestructura de computación escalable de Domino sin problemas. Esto fue muy útil, ya que teníamos clientes con requisitos informáticos exiguos (regresiones simples y modelos de datos pequeños), así como clientes con requisitos informáticos masivos (clasificadores de múltiples capas en datos de audio no estructurados). La capacidad de activar una gran cantidad de máquinas CPU hacer barridos de hiperparámetros o aprovechar las GPU para el análisis de la señal sin tener que gastar efectivo por adelantado fue excelente, y la facturación detallada hizo que sea trivial transferir los costos a los clientes.

Compartir los resultados del análisis también fue bastante sencillo. Domino hizo posible generar informes knitR y cuadernos Jupyter alojados de forma segura en la plataforma. Crear una cuenta para nuestros clientes, agregarlos a nuestros proyectos y compartir los resultados de esa manera nos permitió iterar rápidamente y satisfacer las necesidades de nuestros clientes. Sin embargo, nos dimos cuenta de que vivir juntos, estar casados, criar una familia y trabajar juntos era mucho que hacer … así que frenamos la consulta y tratamos de pasar nuestro tiempo juntos caminando por LACMA en lugar de discutir sobre las funciones de pérdida.

En un equipo de proyecto

Tuve una serie de casos en los que tuve un proyecto independiente a través de la firma de consultoría o mediante otros compromisos en los que tuve que colaborar con varias partes interesadas en un análisis. La ciencia de datos es un deporte de equipo, y la composición del equipo a menudo tenía expertos en la materia o consultores estadísticos que tenían una experiencia mucho más profunda sobre algún aspecto del problema que estábamos resolviendo. Muy específicamente, teníamos un proyecto en el que estábamos tratando de comprender y replicar los hallazgos en un documento que había sido publicado. El uso de Domino proporcionó todos los beneficios anteriores, con la incorporación de la gestión del entorno.

Un pequeño secreto sucio de la ciencia de datos es que pasas mucho tiempo haciendo que tu entorno sea “perfecto”. Esto significa la versión correcta de scikit-learn y pandas, y la versión específica de tensorflow o NLTK o spacy o cualquiera de los otros Cientos de dependencias ocultas. Obtener un análisis o script que haya escrito para que se ejecute en la computadora de otra persona pero que no se ejecute en la suya no es absolutamente trivial. Simplemente hacer que su trabajo se ejecute de manera confiable en varias máquinas agrega una cantidad significativa de fricción. Ser capaz de tener un entorno de referencia consistente en el que todos ejecutamos nuestro código hizo que la colaboración fuera mucho más fácil.

Hubo una serie de otros beneficios: el control de versiones automatizado nos salvó una vez cuando ejecutamos un script con un rm sin protección, acceso compartido a conjuntos de datos y divisiones consistentes de prueba / tren … pero lo que realmente se destacó fue lo fácil que fue trabajar en el mismo análisis. porque todos estábamos usando fundamentalmente “la misma computadora”.

Como educador

Tuve la suerte de usar Domino para enseñar ciencia de datos dos veces. Trabajé con estudiantes de South Central Scholars y los asesoré a través de la especialización Johns Hopkins / Coursera Data Science. Estos eran estudiantes que no tenían computadoras portátiles particularmente innovadoras, y que a menudo se encontraban trabajando a horas extrañas en entornos extraños.

Tener Domino les permitió tener siempre un entorno accesible y consistente, y las características de colaboración les facilitaron hacerme preguntas y compartir problemas conmigo. Poder mirar sus proyectos y ver cuándo tenían experimentos que estaban produciendo errores fue poderoso, ya que pude ayudarlos a detectar errores que de otro modo podrían haberlos frustrado para que renunciaran.

En lugar de obligarlos a copiar / pegar mensajes de error en correos electrónicos y enviarme informes de errores, simplemente podrían @ enviarme un mensaje en una carrera, y podría ver el error y relacionarme con ellos. Creo que esto realmente me ayudó a llevar a mi estudiante a través del programa y la certificación.

Finalmente, tuve la suerte de ser instructor invitado en UCLA este semestre en el programa de Maestría en Estadística Aplicada. Enseñé tres sesiones del curso “Herramientas de ciencia de datos”, y aproveché significativamente Domino. Nuevamente, el hardware escalable automatizado, la configuración consistente, la colaboración y las funciones de control de versiones fueron bastante poderosas. Los estudiantes pudieron enviarme enlaces a errores en experimentos o resultados inesperados. Pudieron aprender los entresijos de la línea de comandos de Linux gracias al soporte ssh de Domino sin horas de configuración. Lo mismo para aprovechar RStudio, Jupyter, knitR y Shiny … tener esas herramientas preinstaladas en un entorno consistente permitió a los estudiantes aprender más rápido y compartir sus hallazgos conmigo.

Conclusión

Cuando encontré Domino por primera vez, como usuario, me cautivó. Finalmente, alguien había construido una plataforma para enfrentar los desafíos de escalar muchos de los cuellos de botella poco atractivos, a menudo ignorados, para la investigación cuantitativa. Comencé a usarlo porque me hizo más productivo, lo usé en mi empresa de consultoría porque me facilitó la creación, reproducción y exhibición de nuestro trabajo, y lo uso cuando enseño porque permite a mis alumnos enfocarse en la ciencia de datos, No todas las tuberías y redes que a veces damos por sentado.

Esa es mi perspectiva. También puede leer lo que otros usuarios de Domino dicen en nuestra página de clientes, o en las respuestas a esta pregunta de Quora.