¿Cuánto mejora la aceleración del entrenamiento MLP mediante la inicialización de pesas con distribución no uniforme?

Para responder exactamente a su pregunta, uno necesitaría conocer más detalles sobre el experimento que hizo y qué quiere decir exactamente con “Lomax”, que es su descriptor para la curva azul. Como está interesado en la relación entre la inicialización y la tasa de convergencia, lo guiaré hacia la Normalización por lotes. Al incorporar la normalización en su arquitectura (aplicando el algoritmo 1 en su documento), en lugar de manejar la normalización en su inicialización (como se hace en el llamado método de inicialización de Xavier: una mejora sobre el enfoque de Alexnet de w_i, j ~ N (0, 0.01) o su método w_i, j ~ Unif (a, b)), puede hacer su vida más fácil de varias maneras. Como dice el documento, “al normalizar las activaciones en toda la red, evita que los pequeños cambios en los parámetros se amplifiquen en cambios más grandes y subóptimos en las activaciones en gradientes”, lo que le permite utilizar mayores tasas de aprendizaje y preocuparse menos por la explosión de los gradientes al definir su arquitecturas propias (no probadas previamente) (en lugar de, por ejemplo, entrenar Inception en Imagenet, que es conocido por converger con configuraciones razonables).