¿Hay algún otro enfoque para resolver el sobreajuste además de la deserción y la normalización por lotes en el aprendizaje profundo?

Probablemente necesite examinar la causa de su sobreajuste. ¿Es demasiado pequeño de muestras para las categorías raras (insuficiencia de datos) o el desequilibrio de clase? ¿Es de usted modificando los parámetros sin tener un conjunto de reserva separado para el ajuste?

Es probable que haya cientos de formas de luchar contra el sobreajuste (la regularización L1 y L2 es común), pero la deserción y la normalización por lotes deberían ser todo lo que necesita.

¿También está comenzando con una red preentrenada o la está entrenando desde cero?

¿Para cuántas épocas está entrenando su red?

¿Qué tipo de tasa de aprendizaje?

¿Cuál es su criterio de detención?

¿Qué tan grande es su conjunto de prueba / tren?

Cuantas categorias?

¿Qué tan distintas son las categorías?

etc.

Supongo que lo que está sucediendo es que tienes un conjunto de datos demasiado pequeño para tus categorías más raras. Por lo tanto, debe hacer un aumento de datos; es probable que lo esté haciendo de izquierda a derecha; – Agregaría rotaciones (rotaciones de +/- 30 grados para cada versión invertida), traducciones; cultivo variaciones de color y contraste; ruido; distorsiones (escala, sesgo y otras más avanzadas como la distorsión elástica)

Las principales canalizaciones generalmente ofrecerán un aumento de datos en tiempo real como parte de su diseño central. Por ejemplo, si está usando keras, consulte esta documentación

Preprocesamiento de imagen – Documentación de Keras

Disminuya su número de neuronas ocultas, eso las obligará a generalizar más.