¿Se puede escalar la arquitectura de la GPU para las cargas de trabajo emergentes de AI / ML?

¿Puede la arquitectura GPU escalar para cargas de trabajo ML?

  • Las GPU ni siquiera se escalan para las cargas de trabajo actuales . Algunas compañías se han quejado de los tiempos de capacitación en el lapso de meses y la necesidad de tener granjas masivas solo para atender solicitudes de inferencia.
  • Excepto por ajustes como algunos de los soportes en la próxima GPU NVIDIA Volta, espero que el escalado sea sublineal en el futuro, lo que no es muy atractivo.

Hay una variedad de nuevas empresas que trabajan en arquitecturas muy diferentes para saltar al menos un orden de magnitud en rendimiento en comparación con los clústeres de GPU. Apuesto a que al menos uno de ellos probablemente comerá el almuerzo de NVIDIA. [anexo] El TPU-2 de Google también se anunció recientemente, y parece que también está adoptando un enfoque más eficiente.

Dejé mi trabajo (trabajando con GPU) en Apple hace una semana, me negué a entrevistarme para un trabajo en NVIDIA y me uní a una de esas startups. Dado que hice efectivo mis dos primeras startups, espero que mi tercera tenga al menos el mismo éxito.