La respuesta más correcta sería ejecutar una prueba de carga.
Dependiendo de cómo se implemente / diseñe su aplicación, puede haber cuellos de botella en otros lugares. ¿Utiliza una base de datos o alguna otra dependencia? ¿Hay una sola API o hay varias que se ejecutan en los mismos hosts? ¿Cuál es el patrón de llamadas de las API?
Una prueba de carga con una representación esperada de lo que está sucediendo durante los escenarios de uso típicos, ya sea con datos reales o una aproximación cercana a esos datos, le dará una idea de cuáles son los cuellos de botella, y le dará un límite de lo que es El anfitrión puede manejar.
- ¿Por qué Google se unió a la comunidad OpenStack?
- Servidores privados virtuales: ¿Cuál es el mejor alojamiento VPS que también proporciona alojamiento de correo electrónico?
- ¿Puedo alquilar una supercomputadora?
- Cloud Computing: ¿Vale la pena asistir a cursos de Cloud Academy?
- ¿Cuáles son los beneficios del PMS basado en la nube sobre los sistemas heredados para administrar propiedades hoteleras?
Con los datos que obtiene de una prueba de carga, puede escalar adecuadamente y también identificar y quizás corregir otros cuellos de botella en el diseño de su aplicación.
Para python, probablemente pueda usar un marco de prueba de carga como el que se muestra aquí: un marco de prueba de carga moderno
Nota: Esta es la primera vez que respondo una pregunta de Quora, así que accidentalmente envié esto como un comentario en lugar de una respuesta.