Probé una red con 2 capas conv y 2 capas completamente conectadas. 2 capas de normas por lotes … el entrenamiento tardó bastante en converger …
Lo que tienes es una red pequeña, 4 capas en total para ser precisos es una red poco profunda. Los efectos de normalización por lotes (BN) son más beneficiosos para las redes neuronales profundas (DNN). Lo que tiene allí es que BN introduce una carga computacional adicional más algunos parámetros adicionales. Así que hay dos factores en juego aquí.
- BN introduce una carga adicional que puede ralentizar el tiempo de ejecución.
- BN normalmente reduce la cantidad de épocas necesarias para entrenar la red, por lo tanto, puede terminar la capacitación muy temprano, justo después de una pequeña cantidad de épocas. Tampoco está haciendo uso de otros beneficios para acelerar aún más el proceso de aprendizaje.
Entonces es simple saber a dónde va mal.
- Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?
- ¿Es la tasa de falso rechazo (FRR) similar a la tasa de falsos positivos (FPR)? Entonces, si es similar, ¿por qué hay disponibles diferentes definiciones para cada una de ellas?
- ¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?
- ¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?
- ¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?
No está reduciendo el conteo de época ni aprovechando los otros beneficios de BN lo suficiente como para compensar el tiempo adicional que proviene de la carga adicional de BN. Por lo tanto, le aconsejo que aproveche todos los beneficios de BN.
- Eliminar otros métodos de regularización.
- Aumentar la tasa de aprendizaje para acelerar aún más el aprendizaje.
- Reducir el recuento de época, ya que la red alcanza el mínimo justo después de algunas épocas.
De esa manera notará una aceleración debido al uso de BN. Pero tenga en cuenta que los beneficios son más evidentes en los DNN a gran escala, como las redes neuronales residuales (ResNet) con más de 200 capas que las redes más pequeñas y poco profundas.
Espero que esto ayude.