¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros? La tecnología cambia la vida futura

La pregunta se aclaró aún más con el OP y limitó el alcance a avances recientes como: [1609.09106] HyperNetworks.

Los investigadores se esfuerzan por encontrar modelos con menos parámetros por dos razones:

Teóricamente, como lo sugiere la teoría VC o el equilibrio de sesgo-varianza, los modelos con menos parámetros tienen una mejor capacidad de generalización. El mecanismo de abandono, por ejemplo, mejora drásticamente el rendimiento de las redes neuronales porque tiene una cantidad mucho menor de parámetros efectivos, lo que es consistente con la teoría. El documento de la hipernet aquí no parece dar un gran impulso a la precisión de la predicción, pero con muchos menos parámetros aún logró acercarse al estado de la técnica y, en algunos casos, a un mejor rendimiento.
Menos parámetros significa menos requisitos de datos y capacitación más rápida. En muchos casos donde no es posible recopilar grandes conjuntos de datos como ImageNet, un modelo con menos parámetros tendría una ventaja.

La investigación científica no se trata solo de superar los puntos de referencia. Si aprendimos algo de la era anterior a ImageNet, es que la obsesión con los puntos de referencia es una mala idea. Durante algunos años, no progresamos mucho, además de sobreajustar MNIST o Caltech 101. Se nos ocurrió una enorme cantidad de técnicas sofisticadas de extracción de características para superar los puntos de referencia, pero rara vez tratamos de entender si un método es mejor o por qué. Incluso intentamos preguntarnos si los puntos de referencia seguían siendo la mejor métrica para la tarea.

El aprendizaje profundo ha sido enormemente exitoso recientemente, pero aún no entendemos completamente por qué funciona bien. Con millones de parámetros en un modelo, debe haber redundancia en alguna parte, y la investigación como la hipernet parece ser una excelente manera de “destilar” las redes neuronales para que podamos extraer la parte más útil de las redes neuronales profundas y, con suerte, obtener una mejor comprensión de ellos.