Docker ha sido una de las herramientas importantes en la configuración del entorno para la implementación de código en producción. La implementación de bases de datos o páginas web se ha vuelto más fácil, sin embargo, esta misma encapsulación del entorno ha encontrado su uso incluso en la fase de desarrollo de la programación y lo mismo en ciencia de datos. Hay dos fases principales en el aprendizaje automático,
- Fase de entrenamiento: –
- Esta fase implica construir e iterar sobre modelos para largos ciclos de cálculo.
- Tiene una carga fija y tiene un estado (Nueva época depende de la época anterior).
- Tiene una carga fija con respecto a los requisitos de memoria y cálculo
- Por lo general, tiene algoritmos de creación de usuario único.
- Uso de Docker: – En esta fase, nos ha permitido entrenar en contenedores únicos / múltiples manteniendo el mismo entorno. Ayuda a ejecutar proyectos en diferentes servidores, lo que ayuda en el seguimiento y la colaboración de proyectos de aprendizaje automático.
- Fase de inferencia: –
- Esta fase implica servir modelos construidos como API RESTful para predecir en tiempo real en función de las entradas o pronosticar en función de un conjunto de entradas (archivo CSV)
- Implica un número variado de llamadas al modelo dependiendo del uso. Ejemplo: si se utiliza la API de reconocimiento facial en la aplicación uber para autenticar a los usuarios, entonces el número de llamadas es diferente a lo largo del día.
- Es un estado sin estado ya que una vez que se carga el modelo es independiente de otras predicciones.
- Involucra a múltiples usuarios que usan el modelo en esta fase.
- Uso de Docker: – En esta fase, nos permite ejecutar múltiples contenedores para servir los modelos y servirlos detrás de RESTful API.
Docker ha mejorado todo el proceso de construcción / implementación de aprendizaje automático. Junto con esta herramienta de orquestación como Kubernetes o Docker Swarm, nos ayuda a lograr la ventaja de trabajar con ellos.
El medio ambiente es un componente importante en el proyecto de aprendizaje automático. Aunque, no es suficiente rastrear y hacer que los experimentos sean reproducibles. Es esencial que rastreemos el código, los datos, los pesos, las estadísticas y los archivos para poder volver a ejecutar / usar el experimento. Creamos Datmo porque teníamos los mismos problemas con el seguimiento de nuestros propios modelos de aprendizaje automático y reconocimos que en ese momento no había una buena manera de realizar un seguimiento de nuestro trabajo. Se integra con Git y no interrumpe los flujos de trabajo actuales, sino que funciona dentro de ellos. Por ejemplo, si tiene un repositorio actual en el que está trabajando, puede comenzar a rastrear instantáneas simplemente haciendo lo siguiente dentro de su repositorio.
- ¿Debería centrarme en la ciencia de datos, el desarrollo web o el desarrollo de iOS?
- ¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?
- Cómo resolver el problema relacionado con pequeños datos de capacitación que conducen el aprendizaje automático o el aprendizaje profundo
- ¿Qué es un buen instituto de capacitación para ciencia de datos y big data en Kolkata?
- ¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?