¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?

Gracias por la solicitud

Como esta es una respuesta general, puedo relacionarme de varias maneras.

Si le importan los efectos de variar el tamaño del lote, le sugiero que lea esta pregunta relacionada sobre quora. Tiene muchas ideas relevantes.
Como se entiende por su comentario, también le importa cómo el tamaño de los datos afecta los resultados. La respuesta es enorme, pero depende principalmente de cuán ‘profunda’ sea su tarea. Para algunos conjuntos de datos, una representación de características más profunda tiene sus límites porque el modelo subyacente no es tan complejo. Por lo tanto, ir más allá de unos pocos cientos de miles de muestras a millones o miles de millones tiene poco efecto. Si creó un conjunto de datos MNIST con 10 veces los datos del original, no obtendría mucho más rendimiento porque los datos son bastante escasos y hay un límite de lo que puede lograr con una representación profunda (ya está en ~ 99 % exactitud).
Para las tareas más desafiantes, como la traducción automática, los autos sin conductor, el modelo más profundo se beneficia enormemente de los grandes datos. Le recomiendo que lea un artículo relevante reciente publicado por Geoffrey Hinton sobre el entrenamiento de redes neuronales escandalosamente grandes con miles de millones de parámetros y miles de millones de muestras etiquetadas como solo Google puede hacerlo. Los probaron en múltiples conjuntos de datos y exploraron los beneficios del aprendizaje profundo de una manera que lo ayudará a responder su pregunta.