¿Pueden las tareas de inferencia de aprendizaje automático en los centros de datos generalmente hacerse paralelas?

En general, publica su modelo como servicio web y pueden ubicarse en una infraestructura escalable de forma transparente. Esta es la forma ideal de escalar los modelos (es decir, correr en paralelo).

Un buen ejemplo sería la implementación basada en “acopladores y kubernetes” que puede escalarse de forma transparente. Los contenedores Docker son los más fáciles de escalar sin sudar (sin pesadillas de despliegue) y Kubernetes se encarga de administrar las imágenes de Docker y su despliegue.

Una forma de hacer esto para los viejos es usando “Cloud Foundry” (Opinión muy personal)

O

La forma tradicional de hacerlo es ejecutar múltiples contenedores de servlets (como tomcat) e implementar su servicio web manualmente y configurar un equilibrador de carga manual y preocuparse por la tolerancia a fallas, el escalado manual, etc.

La aparición de la nube y la “aplicación nativa de la nube” realmente ha transformado la implementación.

– editar—

De TensorFlow

¿Cambió de opinión y quiere ejecutar el modelo como un servicio en la nube? Contenedor con Docker y TensorFlow simplemente funciona.