¿Cuál es la configuración de su computadora para una máquina de ciencia de datos?

Para mi trabajo de ciencia de datos, no confío en la instalación a nivel del sistema, ya que a menudo se rompen especialmente en una Mac. Cada vez que hay actualizaciones para XCode, mi entorno de desarrollador necesita mucho trabajo para mantener la misma productividad.

En cambio, aprovecho los contenedores Docker para acelerar y disminuir rápidamente los entornos de desarrollo. La mejor parte es que puede conectar diferentes controles remotos de Docker a su CLI de Docker, lo que le permite activar entornos que se ejecutan en otras máquinas y acceder a ellos a través de portátiles Jupyter o una línea de comandos para ejecutar scripts.

Sin embargo, aprender Docker puede ser una molestia, por lo que usar una herramienta que simplifique esto como Datmo ayuda. Puede ejecutar una tarea en un contenedor Docker abstracto con un comando como:

La tarea $ datmo ejecuta “python classify.py” # ejecuta un script
$ datmo task ejecutar “jupyter notebook” # ejecutar un cuaderno Jupyter

Otra alternativa es usar máquinas virtuales como virtual box. Datmo no admite eso actualmente, pero pronto habrá más integraciones.

Espero que esto ayude 🙂

Depende de qué tan grandes sean los datos.

Para cosas pequeñas, me quedo con un MBP con 8GB de ram y la instalación de Anaconda python.

Para cosas grandes, uso spark y luego proceso mi mac.