¿Es el tiempo de aprendizaje de una red neuronal profunda (por ejemplo, para la detección de objetos) proporcional a la cantidad de datos de entrenamiento disponibles?

Primero, tenga en cuenta que el tiempo de aprendizaje es una cantidad mal definida. Si su red logra una precisión del 95.0% en 1 día, una precisión del 95.2% en 2 días, una precisión del 95.3% en 3 días, ¿cuál es su tiempo de aprendizaje?

Lo que generalmente se obtiene de los modelos de aprendizaje profundo [u otros modelos de aprendizaje automático] es un gráfico entre la precisión y el tiempo. Tienes que elegir en qué punto quieres parar, porque la mejora no vale la pena.

En segundo lugar, a medida que cambia sus datos de entrenamiento, el problema anterior se vuelve aún peor. ¿Los datos adicionales tienen información más útil que la que había en los datos originales? Supongamos que entrena dos redes N1 y N2, con 10000 puntos de datos y 20000 puntos de datos respectivamente.

Si la cantidad de información en el segundo conjunto de datos es aproximadamente la misma que en el primero, entonces alcanzará la misma precisión con N1 y N2. Además, debido a que usa el descenso de gradiente estocástico, lo que N1 habría visto en la primera época es casi lo mismo que lo que N2 ha visto en la primera mitad de la primera época. La segunda época de N1 implica usar la misma información que la primera época para optimizar aún más los pesos. Del mismo modo, la segunda mitad de la primera época para N2 implica usar más o menos la información ya vista para optimizar aún más los pesos. Por lo tanto, puede esperar que sus gráficos de precisión frente a tiempo sean bastante similares.

Si la cantidad de información en el segundo conjunto de datos es mayor que la del primero, entonces no son comparables. N2 podría lograr una precisión mayor que la que N1 puede lograr. Además, para extraer esa información adicional, es probable que necesite tener más parámetros en N2. Así que ahora se hace prácticamente imposible hacer declaraciones justas sobre los tiempos de aprendizaje.

La forma típica de comparar dos algoritmos para tiempos de aprendizaje es usar el mismo conjunto de datos.

No, hay una cosa llamada “sobrealimentación”