Razones
- Mejor función de activación, con buenas propiedades (relu, Lrelu)
- Resolver desplazamiento de covariable (normalización por lotes)
- Mejor método de optimización (Adam)
- El bloqueo residual permite profundizar, muy profundo.
Todas estas técnicas realmente ayudaron al proceso de optimización hasta el punto de que el nuevo desafío de investigación ya no se trata de la desaparición del gradiente.
Experiencia
- ¿Qué hace que los parámetros del modelo sean variables latentes?
- ¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?
- ¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?
- ¿Cuáles son todas las formas en que Quora usa el procesamiento del lenguaje natural (PNL)?
- ¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?
Un ejemplo simple de juguete que todos pueden probar es ejecutar dos mismos modelos con diferentes hiperparámetros en el conjunto de datos MNIST. La arquitectura es una red neuronal de una profundidad con pérdida de entropía cruzada.
- Experiencia 1 : descenso gradiente estocástico independiente y sigmoide
- Experiencia 2 : Adam optimizer plus relu como la activación de la capa intermedia.
Creo que las curvas hablan por sí mismas …